Automatisches Skalieren eines Onlineendpunkts

Artikel
05/28/2024

GILT FÜR:Azure CLI ML-Erweiterung v2 (aktuell)Python SDK azure-ai-ml v2 (aktuell)

Autoscale führt automatisch die richtige Menge an Ressourcen aus, um die Last Ihrer Anwendung zu bewältigen. Onlineendpunkte unterstützen automatisches Skalieren durch die Integration des Autoskalierungsfeatures von Azure Monitor.

Die automatische Azure Monitor-Skalierung unterstützt eine Vielzahl von Regeln. Sie können metrikbasierte Skalierung (z. B. CPU-Auslastung >70 %), zeitplanbasierte Skalierung (z. B. Skalierungsregeln für Hauptgeschäftszeiten) oder eine Kombination davon konfigurieren. Weitere Informationen finden Sie unter Überblick über Autoskalierung in Microsoft Azure.

Diagramm für die Autoskalierung beim bedarfsgesteuerten Hinzufügen/Entfernen einer Instanz

Derzeit können Sie die automatische Skalierung entweder mithilfe der Azure-CLI oder über REST, ARM oder das browserbasierte Azure-Portal verwalten. Andere Azure Machine Learning-SDKs, z. B. das Python-SDK, werden im Laufe der Zeit Unterstützung hinzufügen.

Voraussetzungen

Ein bereitgestellter Endpunkt. Führen Sie die Schritte zum Bereitstellen und Bewerten eines Machine Learning-Modells mithilfe eines Onlineendpunkts durch.
Um die Autoskalierung zu verwenden, muss die Rolle „microsoft.insights/autoscalesettings/write“ der Identität zugewiesen werden, die die Autoskalierung verwaltet. Sie können alle integrierten oder benutzerdefinierten Rollen verwenden, die diese Aktion zulassen. Eine allgemeine Anleitung zum Verwalten von Rollen für Azure Machine Learning finden Sie unter Benutzer und Rollen verwalten. Weitere Informationen zu Einstellungen für die Autoskalierung in Azure Monitor finden Sie unter Microsoft.Insights autoscalesettings.

Definieren eines Profils für die automatische Skalierung

Zum Aktivieren der Autoskalierung für einen Endpunkt legen Sie zuerst ein Profil für die automatische Skalierung fest. Dieses Profil definiert die standardmäßige, minimale und maximale Kapazität der Skalierungsgruppe. Im folgenden Beispiel wird die Standard- und Mindestkapazität auf zwei VM-Instanzen und die Höchstkapazität auf fünf VM-Instanzen festgelegt:

GILT FÜRAzure CLI ML-Erweiterung v2 (aktuell)

Der folgende Codeausschnitt legt die Endpunkt- und Bereitstellungsnamen fest:

# set your existing endpoint name
ENDPOINT_NAME=your-endpoint-name
DEPLOYMENT_NAME=blue

Als nächstes erhalten Sie die Azure Resource Manager-ID der Bereitstellung und des Endpunkts:

# ARM id of the deployment
DEPLOYMENT_RESOURCE_ID=$(az ml online-deployment show -e $ENDPOINT_NAME -n $DEPLOYMENT_NAME -o tsv --query "id")
# ARM id of the deployment. todo: change to --query "id"
ENDPOINT_RESOURCE_ID=$(az ml online-endpoint show -n $ENDPOINT_NAME -o tsv --query "properties.\"azureml.onlineendpointid\"")
# set a unique name for autoscale settings for this deployment. The below will append a random number to make the name unique.
AUTOSCALE_SETTINGS_NAME=autoscale-$ENDPOINT_NAME-$DEPLOYMENT_NAME-`echo $RANDOM`

Mit dem folgenden Codeausschnitt wird das Profil für die Autoskalierung erstellt:

az monitor autoscale create \
  --name $AUTOSCALE_SETTINGS_NAME \
  --resource $DEPLOYMENT_RESOURCE_ID \
  --min-count 2 --max-count 5 --count 2

Hinweis

Weitere Informationen finden Sie auf der Referenzseite für die Autoskalierung.

GILT FÜR: Python SDK azure-ai-ml v2 (aktuell)

Importieren Sie Module:

from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential
from azure.mgmt.monitor import MonitorManagementClient
from azure.mgmt.monitor.models import AutoscaleProfile, ScaleRule, MetricTrigger, ScaleAction, Recurrence, RecurrentSchedule
import random 
import datetime

Definieren Sie Variablen für den Arbeitsbereich, den Endpunkt und die Bereitstellung:

subscription_id = "<YOUR-SUBSCRIPTION-ID>"
resource_group = "<YOUR-RESOURCE-GROUP>"
workspace = "<YOUR-WORKSPACE>"

endpoint_name = "<YOUR-ENDPOINT-NAME>"
deployment_name = "blue"

Rufen Sie Azure Machine Learning- und Azure Monitor-Clients ab:

credential = DefaultAzureCredential()
ml_client = MLClient(
    credential, subscription_id, resource_group, workspace
)

mon_client = MonitorManagementClient(
    credential, subscription_id
)

Rufen Sie den Endpunkt und Bereitstellungsobjekte ab:

deployment = ml_client.online_deployments.get(
    deployment_name, endpoint_name
)

endpoint = ml_client.online_endpoints.get(
    endpoint_name
)

Erstellen Sie ein Profil für die automatische Skalierung:

# Set a unique name for autoscale settings for this deployment. The below will append a random number to make the name unique.
autoscale_settings_name = f"autoscale-{endpoint_name}-{deployment_name}-{random.randint(0,1000)}"

mon_client.autoscale_settings.create_or_update(
    resource_group, 
    autoscale_settings_name, 
    parameters = {
        "location" : endpoint.location,
        "target_resource_uri" : deployment.id,
        "profiles" : [
            AutoscaleProfile(
                name="my-scale-settings",
                capacity={
                    "minimum" : 2, 
                    "maximum" : 5,
                    "default" : 2
                },
                rules = []
            )
        ]
    }
)

Erstellen einer Regel zum Aufskalieren mithilfe von Bereitstellungsmetriken

Eine gängige Regel für das Aufskalieren besteht darin, die Anzahl der VM-Instanzen zu erhöhen, wenn die durchschnittliche CPU-Auslastung hoch ist. Im folgenden Beispiel werden zwei weitere Knoten (bis zum Maximalwert) zugeordnet, wenn die CPU-Auslastung fünf Minuten lang durchschnittlich über 70 % liegt:

GILT FÜRAzure CLI ML-Erweiterung v2 (aktuell)

az monitor autoscale rule create \
  --autoscale-name $AUTOSCALE_SETTINGS_NAME \
  --condition "CpuUtilizationPercentage > 70 avg 5m" \
  --scale out 2

Die Regel ist Teil des my-scale-settings-Profils (autoscale-name entspricht dem name des Profils). Der Wert des Arguments condition besagt, dass die Regel ausgelöst werden soll, wenn „die durchschnittliche CPU-Auslastung unter den VM-Instanzen fünf Minuten lang 70 % überschreitet“. Wenn diese Bedingung erfüllt ist, werden zwei weitere VM-Instanzen zugeordnet.

Hinweis

Weitere Informationen zur CLI-Syntax finden Sie unter az monitor autoscale.

GILT FÜR: Python SDK azure-ai-ml v2 (aktuell)

Erstellen Sie die Regeldefinition:

rule_scale_out = ScaleRule(
    metric_trigger = MetricTrigger(
        metric_name="CpuUtilizationPercentage",
        metric_resource_uri = deployment.id, 
        time_grain = datetime.timedelta(minutes = 1),
        statistic = "Average",
        operator = "GreaterThan", 
        time_aggregation = "Last",
        time_window = datetime.timedelta(minutes = 5), 
        threshold = 70
    ), 
    scale_action = ScaleAction(
        direction = "Increase", 
        type = "ChangeCount", 
        value = 2, 
        cooldown = datetime.timedelta(hours = 1)
    )
)

Diese Regel bezieht sich auf den Mittelwert der letzten fünf Minuten von CPUUtilizationpercentage aus den Argumenten metric_name, time_window und time_aggregation. Wenn der Wert der Metrik größer als der Schwellenwert (threshold) 70 ist, werden zwei weitere VM-Instanzen zugeordnet.

Aktualisieren Sie das Profil my-scale-settings, um diese Regel einzuschließen:

mon_client.autoscale_settings.create_or_update(
    resource_group, 
    autoscale_settings_name, 
    parameters = {
        "location" : endpoint.location,
        "target_resource_uri" : deployment.id,
        "profiles" : [
            AutoscaleProfile(
                name="my-scale-settings",
                capacity={
                    "minimum" : 2, 
                    "maximum" : 5,
                    "default" : 2
                },
                rules = [
                    rule_scale_out
                ]
            )
        ]
    }
)

Erstellen einer Regel zum Abskalieren mithilfe von Bereitstellungsmetriken

Bei geringer Auslastung kann eine Skalierungsregel die Anzahl der VM-Instanzen reduzieren. Das folgende Beispiel gibt einen einzelnen Knoten frei (bis auf ein Minimum von zwei Knoten), wenn die CPU-Auslastung fünf Minuten lang weniger als 30 % beträgt:

GILT FÜRAzure CLI ML-Erweiterung v2 (aktuell)

az monitor autoscale rule create \
  --autoscale-name $AUTOSCALE_SETTINGS_NAME \
  --condition "CpuUtilizationPercentage < 25 avg 5m" \
  --scale in 1

GILT FÜR: Python SDK azure-ai-ml v2 (aktuell)

Erstellen Sie die Regeldefinition:

rule_scale_in = ScaleRule(
    metric_trigger = MetricTrigger(
        metric_name="CpuUtilizationPercentage",
        metric_resource_uri = deployment.id, 
        time_grain = datetime.timedelta(minutes = 1),
        statistic = "Average",
        operator = "LessThan", 
        time_aggregation = "Last",
        time_window = datetime.timedelta(minutes = 5), 
        threshold = 30
    ), 
    scale_action = ScaleAction(
        direction = "Increase", 
        type = "ChangeCount", 
        value = 1, 
        cooldown = datetime.timedelta(hours = 1)
    )
)

Aktualisieren Sie das Profil my-scale-settings, um diese Regel einzuschließen:

mon_client.autoscale_settings.create_or_update(
    resource_group, 
    autoscale_settings_name, 
    parameters = {
        "location" : endpoint.location,
        "target_resource_uri" : deployment.id,
        "profiles" : [
            AutoscaleProfile(
                name="my-scale-settings",
                capacity={
                    "minimum" : 2, 
                    "maximum" : 5,
                    "default" : 2
                },
                rules = [
                    rule_scale_out, 
                    rule_scale_in
                ]
            )
        ]
    }
)

Erstellen einer Skalierungsregel basierend auf Endpunktmetriken

Die vorherigen Regeln, die auf die Bereitstellung angewendet wurden. Fügen Sie nun eine Regel hinzu, die für den Endpunkt gilt. Wenn die Anforderungslatenz in diesem Beispiel fünf Minuten lang durchschnittlich über 70 Millisekunden liegt, ordnen Sie einen anderen Knoten zu.

GILT FÜRAzure CLI ML-Erweiterung v2 (aktuell)

az monitor autoscale rule create \
 --autoscale-name $AUTOSCALE_SETTINGS_NAME \
 --condition "RequestLatency > 70 avg 5m" \
 --scale out 1 \
 --resource $ENDPOINT_RESOURCE_ID

GILT FÜR: Python SDK azure-ai-ml v2 (aktuell)

Erstellen Sie die Regeldefinition:

rule_scale_out_endpoint = ScaleRule(
    metric_trigger = MetricTrigger(
        metric_name="RequestLatency",
        metric_resource_uri = endpoint.id, 
        time_grain = datetime.timedelta(minutes = 1),
        statistic = "Average",
        operator = "GreaterThan", 
        time_aggregation = "Last",
        time_window = datetime.timedelta(minutes = 5), 
        threshold = 70
    ), 
    scale_action = ScaleAction(
        direction = "Increase", 
        type = "ChangeCount", 
        value = 1, 
        cooldown = datetime.timedelta(hours = 1)
    )
)

Das Feld metric_resource_uri dieser Regel bezieht sich jetzt auf den Endpunkt und nicht auf die Bereitstellung.

Aktualisieren Sie das Profil my-scale-settings, um diese Regel einzuschließen:

mon_client.autoscale_settings.create_or_update(
    resource_group, 
    autoscale_settings_name, 
    parameters = {
        "location" : endpoint.location,
        "target_resource_uri" : deployment.id,
        "profiles" : [
            AutoscaleProfile(
                name="my-scale-settings",
                capacity={
                    "minimum" : 2, 
                    "maximum" : 5,
                    "default" : 2
                },
                rules = [
                    rule_scale_out, 
                    rule_scale_in,
                    rule_scale_out_endpoint
                ]
            )
        ]
    }
)

Ermitteln unterstützter Metrik-IDs

Wenn Sie andere Metriken im Code (CLI oder SDK) zum Einrichten von Autoskalierungsregeln verwenden möchten, sehen Sie sich die Tabelle unter Verfügbare Metriken an.

Erstellen von Skalierungsregeln basierend auf einem Zeitplan

Sie können auch Regeln erstellen, die nur an bestimmten Tagen oder zu bestimmten Zeiten gelten. In diesem Beispiel wird die Knotenanzahl am Wochenende auf „2“ festgelegt.

GILT FÜRAzure CLI ML-Erweiterung v2 (aktuell)

az monitor autoscale profile create \
  --name weekend-profile \
  --autoscale-name $AUTOSCALE_SETTINGS_NAME \
  --min-count 2 --count 2 --max-count 2 \
  --recurrence week sat sun --timezone "Pacific Standard Time"

GILT FÜR: Python SDK azure-ai-ml v2 (aktuell)

mon_client.autoscale_settings.create_or_update(
    resource_group, 
    autoscale_settings_name, 
    parameters = {
        "location" : endpoint.location,
        "target_resource_uri" : deployment.id,
        "profiles" : [
            AutoscaleProfile(
                name="Default",
                capacity={
                    "minimum" : 2, 
                    "maximum" : 2,
                    "default" : 2
                },
                recurrence = Recurrence(
                    frequency = "Week", 
                    schedule = RecurrentSchedule(
                        time_zone = "Pacific Standard Time", 
                        days = ["Saturday", "Sunday"], 
                        hours = [], 
                        minutes = []
                    )
                )
            )
        ]
    }
)

Aktivieren oder Deaktivieren der automatischen Skalierung

Sie können ein bestimmtes Profil für die Autoskalierung aktivieren oder deaktivieren.

GILT FÜRAzure CLI ML-Erweiterung v2 (aktuell)

az monitor autoscale update \
  --autoscale-name $AUTOSCALE_SETTINGS_NAME \
  --enabled false

GILT FÜR: Python SDK azure-ai-ml v2 (aktuell)

mon_client.autoscale_settings.create_or_update(
    resource_group, 
    autoscale_settings_name, 
    parameters = {
        "location" : endpoint.location,
        "target_resource_uri" : deployment.id,
        "enabled" : False
    }
)

Löschen von Ressourcen

Wenn Sie Ihre Bereitstellungen nicht verwenden möchten, löschen Sie sie:

GILT FÜRAzure CLI ML-Erweiterung v2 (aktuell)

# delete the autoscaling profile
az monitor autoscale delete -n "$AUTOSCALE_SETTINGS_NAME"

# delete the endpoint
az ml online-endpoint delete --name $ENDPOINT_NAME --yes --no-wait

GILT FÜR: Python SDK azure-ai-ml v2 (aktuell)

mon_client.autoscale_settings.delete(
    resource_group, 
    autoscale_settings_name
)

ml_client.online_endpoints.begin_delete(endpoint_name)

Nächste Schritte

Weitere Informationen zur Autoskalierung mit Azure Monitor finden Sie in den folgenden Artikeln:

Freigeben über

Automatisches Skalieren eines Onlineendpunkts

Voraussetzungen

Definieren eines Profils für die automatische Skalierung

Erstellen einer Regel zum Aufskalieren mithilfe von Bereitstellungsmetriken

Erstellen einer Regel zum Abskalieren mithilfe von Bereitstellungsmetriken

Erstellen einer Skalierungsregel basierend auf Endpunktmetriken

Ermitteln unterstützter Metrik-IDs

Erstellen von Skalierungsregeln basierend auf einem Zeitplan

Aktivieren oder Deaktivieren der automatischen Skalierung

Löschen von Ressourcen

Nächste Schritte

Feedback

Feedback

Zusätzliche Ressourcen