Konfigurera MLflow för Azure Machine Learning

Artikel
06/13/2024

Den här artikeln beskriver hur du kan konfigurera MLflow för att ansluta till en Azure Mašinsko učenje-arbetsyta för spårning, register och distribution.

Azure Mašinsko učenje arbetsytor är MLflow-kompatibla, vilket innebär att de kan fungera som en MLflow-server utan någon extra konfiguration. Varje arbetsyta har en MLflow-spårnings-URI som MLflow kan använda för att ansluta till arbetsytan. Azure Mašinsko učenje arbetsytor har redan konfigurerats för att fungera med MLflow, så ingen extra konfiguration krävs.

Men om du arbetar utanför Azure Mašinsko učenje (till exempel din lokala dator, Azure Synapse Analytics eller Azure Databricks) måste du konfigurera MLflow så att det pekar på arbetsytan.

Viktigt!

När du kör på Azure Compute (Azure Mašinsko učenje Notebooks, Jupyter Notebooks som finns på Azure Mašinsko učenje beräkningsinstanser eller jobb som körs i Azure Mašinsko učenje beräkningskluster) behöver du inte konfigurera spårnings-URI:n. Den konfigureras automatiskt åt dig.

Förutsättningar

Du behöver följande förutsättningar för att följa den här självstudien:

Installera MLflow SDK-paketet mlflow och Azure Mašinsko učenje-plugin-programmet för MLflow azureml-mlflow.
```
pip install mlflow azureml-mlflow
```
Dricks

Du kan använda mlflow-skinny paketet, som är ett enkelt MLflow-paket utan SQL-lagring, server, användargränssnitt eller datavetenskapsberoenden. mlflow-skinny rekommenderas för användare som främst behöver MLflows spårnings- och loggningsfunktioner utan att importera hela sviten med funktioner, inklusive distributioner.
En Azure Machine Learning-arbetsyta. Du kan skapa en genom att följa självstudien Skapa maskininlärningsresurser.
- Se vilka åtkomstbehörigheter du behöver för att utföra dina MLflow-åtgärder på din arbetsyta.
Om du utför fjärrspårning (d.v.s. spårningsexperiment som körs utanför Azure Mašinsko učenje) konfigurerar du MLflow så att det pekar på spårnings-URI:n för din Azure Mašinsko učenje-arbetsyta. Mer information om hur du ansluter MLflow till din arbetsyta finns i Konfigurera MLflow för Azure Mašinsko učenje.

Konfigurera URI för MLflow-spårning

Om du vill ansluta MLflow till en Azure Mašinsko učenje-arbetsyta behöver du spårnings-URI:n för arbetsytan. Varje arbetsyta har en egen spårnings-URI och har protokollet azureml://.

Hämta spårnings-URI:n för din arbetsyta:
- Azure CLI
- Python
- Studio
- Manuellt
GÄLLER FÖR: Azure CLI ml-tillägget v2 (aktuellt)
1. Logga in och konfigurera din arbetsyta:
```
az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location> 
```
2. Du kan hämta spårnings-URI:n med kommandot az ml workspace :
```
az ml workspace show --query mlflow_tracking_uri
```
GÄLLER FÖR: Python SDK azure-ai-ml v2 (aktuell)

Du kan hämta Azure ML MLflow-spårnings-URI:n med hjälp av Azure Mašinsko učenje SDK v2 för Python. Kontrollera att biblioteket azure-ai-ml är installerat i den beräkning som du använder. Följande exempel hämtar den unika MLFLow-spårnings-URI som är associerad med din arbetsyta.
1. Logga in på din arbetsyta med hjälp av MLClient. Det enklare sättet att göra det är genom att använda konfigurationsfilen för arbetsytan:
```
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient.from_config(credential=DefaultAzureCredential())
```
  Dricks
  
  Du kan ladda ned arbetsytans konfigurationsfil genom att:
  
  Gå till Azure ML Studio
  
  Klicka på det övre högra hörnet på sidan –> Ladda ned konfigurationsfilen.
  
  Spara filen config.json i samma katalog som du arbetar med.
2. Du kan också använda prenumerations-ID, resursgruppsnamn och arbetsytenamn för att hämta det:
```
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

#Enter details of your AzureML workspace
subscription_id = '<SUBSCRIPTION_ID>'
resource_group = '<RESOURCE_GROUP>'
workspace_name = '<WORKSPACE_NAME>'

ml_client = MLClient(credential=DefaultAzureCredential(),
                        subscription_id=subscription_id, 
                        resource_group_name=resource_group,
                        workspace_name=workspace_name)
```
  Viktigt!
  
  DefaultAzureCredential försöker hämta autentiseringsuppgifterna från den tillgängliga kontexten. Om du vill ange autentiseringsuppgifter på ett annat sätt, till exempel genom att använda webbläsaren på ett interaktivt sätt, kan du använda InteractiveBrowserCredential eller någon annan metod som är tillgänglig i azure.identity paketet.
3. Hämta Azure Mašinsko učenje Tracking URI:
```
mlflow_tracking_uri = ml_client.workspaces.get(ml_client.workspace_name).mlflow_tracking_uri
```
Använd Azure Mašinsko učenje-portalen för att hämta spårnings-URI:n:
1. Öppna Azure Mašinsko učenje Studio-portalen och logga in med dina autentiseringsuppgifter.
2. I det övre högra hörnet klickar du på namnet på arbetsytan för att visa bladet Katalog + Prenumeration + Arbetsyta .
3. Klicka på Visa alla egenskaper i Azure-portalen.
4. I avsnittet Essentials hittar du egenskapen MLflow tracking URI.
Azure Mašinsko učenje Tracking-URI:n kan konstrueras med hjälp av prenumerations-ID:t, regionen där resursen distribueras, resursgruppens namn och arbetsytans namn. Följande kodexempel visar hur:

Varning

Om du arbetar på en privat länkaktiverad arbetsyta använder MLflow-slutpunkten också en privat länk för att kommunicera med Azure Mašinsko učenje. Därför ser spårnings-URI:n annorlunda ut som det föreslås här. Du måste hämta spårnings-URI:n med hjälp av Azure ML SDK eller CLI v2 i dessa fall.
```
region = "<LOCATION>"
subscription_id = '<SUBSCRIPTION_ID>'
resource_group = '<RESOURCE_GROUP>'
workspace_name = '<AML_WORKSPACE_NAME>'

mlflow_tracking_uri = f"azureml://{region}.api.azureml.ms/mlflow/v1.0/subscriptions/{subscription_id}/resourceGroups/{resource_group}/providers/Microsoft.MachineLearningServices/workspaces/{workspace_name}"
```
Konfigurera spårnings-URI:n:
- Använda MLflow SDK
- Använda miljövariabler
Sedan pekar metoden set_tracking_uri() MLflow-spårnings-URI:n till den URI:n.
```
import mlflow

mlflow.set_tracking_uri(mlflow_tracking_uri)
```
Du kan ange MLflow-miljövariablerna MLFLOW_TRACKING_URI i beräkningen så att alla interaktioner med MLflow i den beräkningen pekar som standard på Azure Mašinsko učenje.
```
MLFLOW_TRACKING_URI=$(az ml workspace show --query mlflow_tracking_uri | sed 's/"//g') 
```
Dricks

När du arbetar med delade miljöer, till exempel ett Azure Databricks-kluster, Azure Synapse Analytics-kluster eller liknande, är det användbart att ange miljövariabeln MLFLOW_TRACKING_URI på klusternivå för att automatiskt konfigurera MLflow-spårnings-URI:n så att den pekar på Azure Mašinsko učenje för alla sessioner som körs i klustret i stället för att göra det per session.

Konfigurera autentisering

När spårningen har angetts måste du också konfigurera autentiseringsmetoden för den associerade arbetsytan. Som standard utför Azure Mašinsko učenje-plugin-programmet för MLflow interaktiv autentisering genom att öppna standardwebbläsaren för att fråga efter autentiseringsuppgifter.

Azure Mašinsko učenje-plugin-programmet för MLflow stöder flera autentiseringsmekanismer via paketet azure-identity, som installeras som ett beroende för plugin-programmet azureml-mlflow. Följande autentiseringsmetoder provas en efter en tills en av dem lyckas:

Miljö: Läser kontoinformation som anges via miljövariabler och använder den för att autentisera.
Hanterad identitet: Om programmet distribueras till en Azure-värd med hanterad identitet aktiverat autentiseras det med det.
Azure CLI: Om en användare loggar in via Azure CLI-kommandot az login autentiseras den som den användaren.
Azure PowerShell: Om en användare loggar in via Azure PowerShells kommando autentiseras Connect-AzAccount den som den användaren.
Interaktiv webbläsare: Autentiserar en användare interaktivt via standardwebbläsaren.

För interaktiva jobb där en användare är ansluten till sessionen kan du förlita dig på interaktiv autentisering och därför krävs ingen ytterligare åtgärd.

Varning

Interaktiv webbläsarautentisering blockerar kodkörning när du frågar efter autentiseringsuppgifter. Det är inte ett lämpligt alternativ för autentisering i obevakade miljöer som träningsjobb. Vi rekommenderar att du konfigurerar annat autentiseringsläge.

För de scenarier där obevakad körning krävs måste du konfigurera ett huvudnamn för tjänsten för att kommunicera med Azure Mašinsko učenje.

MLflow SDK
Använda miljövariabler

import os

os.environ["AZURE_TENANT_ID"] = "<AZURE_TENANT_ID>"
os.environ["AZURE_CLIENT_ID"] = "<AZURE_CLIENT_ID>"
os.environ["AZURE_CLIENT_SECRET"] = "<AZURE_CLIENT_SECRET>"

export AZURE_TENANT_ID="<AZURE_TENANT_ID>"
export AZURE_CLIENT_ID="<AZURE_CLIENT_ID>"
export AZURE_CLIENT_SECRET="<AZURE_CLIENT_SECRET>"

Dricks

När du arbetar med delade miljöer rekommenderar vi att du konfigurerar dessa miljövariabler vid beräkningen. Vi rekommenderar att du hanterar dem som hemligheter i en instans av Azure Key Vault när det är möjligt. I Azure Databricks kan du till exempel använda hemligheter i miljövariabler enligt följande i klusterkonfigurationen: AZURE_CLIENT_SECRET={{secrets/<scope-name>/<secret-name>}}. Se Referens till en hemlighet i en miljövariabel för hur du gör det i Azure Databricks eller se liknande dokumentation på din plattform.

Om du hellre vill använda ett certifikat i stället för en hemlighet kan du konfigurera miljövariablerna AZURE_CLIENT_CERTIFICATE_PATH till sökvägen till en PEM eller PKCS12 certifikatfilen (inklusive privat nyckel) och AZURE_CLIENT_CERTIFICATE_PASSWORD med lösenordet för certifikatfilen, om det finns några.

Konfigurera auktoriserings- och behörighetsnivåer

Vissa standardroller som AzureML Data Scientist eller Deltagare är redan konfigurerade för att utföra MLflow-åtgärder på en Azure Mašinsko učenje-arbetsyta. Om du använder en anpassad roll behöver du följande behörigheter:

Så här använder du MLflow-spårning:
- Microsoft.MachineLearningServices/workspaces/experiments/*
- Microsoft.MachineLearningServices/workspaces/jobs/*
Så här använder du MLflow-modellregistret:
- Microsoft.MachineLearningServices/workspaces/models/*/*

Information om hur du beviljar åtkomst för tjänstens huvudnamn som du skapade eller användarkontot till din arbetsyta finns i Bevilja åtkomst.

Felsöka autentisering

MLflow försöker autentisera till Azure Mašinsko učenje vid den första åtgärden som interagerar med tjänsten, till exempel mlflow.set_experiment() eller mlflow.start_run(). Om du hittar problem eller oväntade autentiseringsprompter under processen kan du öka loggningsnivån för att få mer information om felet:

import logging

logging.getLogger("azure").setLevel(logging.DEBUG)

Ange experimentnamn (valfritt)

Alla MLflow-körningar loggas till det aktiva experimentet. Som standard loggas körningar till ett experiment med namnet Default som skapas automatiskt åt dig. Du kan konfigurera experimentet där spårning sker.

Dricks

När du skickar jobb med Azure Mašinsko učenje CLI v2 kan du ange experimentnamnet med hjälp av egenskapen experiment_name i YAML-definitionen för jobbet. Du behöver inte konfigurera det i träningsskriptet. Mer information finns i YAML: visningsnamn, experimentnamn, beskrivning och taggar .

MLflow SDK
Använda miljövariabler

Konfigurera experimentet med hjälp av MLflow-kommandot mlflow.set_experiment().

experiment_name = 'experiment_with_mlflow'
mlflow.set_experiment(experiment_name)

Du kan också ange en av MLflow-miljövariablerna MLFLOW_EXPERIMENT_NAME eller MLFLOW_EXPERIMENT_ID med experimentnamnet.

export MLFLOW_EXPERIMENT_NAME="experiment_with_mlflow"

Stöd för icke-offentliga Azure-moln

Azure Mašinsko učenje-plugin-programmet för MLflow konfigureras som standard för att fungera med det globala Azure-molnet. Du kan dock konfigurera det Azure-moln som du använder genom att ange miljövariabeln AZUREML_CURRENT_CLOUD.

MLflow SDK
Använda miljövariabler

import os

os.environ["AZUREML_CURRENT_CLOUD"] = "AzureChinaCloud"

export AZUREML_CURRENT_CLOUD="AzureChinaCloud"

Du kan identifiera molnet du använder med följande Azure CLI-kommando:

az cloud list

Det aktuella molnet har värdet IsActive inställt på True.

Nästa steg

Nu när din miljö är ansluten till din arbetsyta i Azure Mašinsko učenje kan du börja arbeta med den.

Dela via