Creare un cluster di elaborazione di Azure Machine Learning con CLI v1

Articolo
03/11/2024

SI APPLICA A:estensione per Machine Learning dell'interfaccia della riga di comando di Azure v1 Python SDK azuremlv1

Informazioni su come creare e gestire un cluster di elaborazione nell'area di lavoro di Azure Machine Learning.

È possibile usare il cluster di elaborazione di Azure Machine Learning per distribuire il processo di training o di inferenza batch in un cluster di nodi di calcolo CPU o GPU nel cloud. Per altre informazioni sulle dimensioni delle macchine virtuali che includono GPU, consultare il documento Dimensioni delle macchine virtuali ottimizzate per GPU.

In questo articolo viene spiegato come:

Creare un cluster di elaborazione
Ridurre il costo del cluster di elaborazione
Configurare un'identità gestita per il cluster

Prerequisiti

Un'area di lavoro di Azure Machine Learning. Per altre informazioni, vedere Creare un'area di lavoro di Azure Machine Learning.
L'estensione dell'interfaccia della riga di comando di Azure per il servizio Machine Learning (v1), Azure Machine Learning Python SDK, o l'estensione Azure Machine Learning Visual Studio Code.

Importante

Alcuni comandi dell'interfaccia della riga di comando (CLI) di Azure in questo articolo usano l'estensione azure-cli-ml, o v1, per Azure Machine Learning. L'assistenza per l'estensione v1 terminerà il 30 settembre 2025. Sarà possibile installare e usare l'estensione v1 fino a tale data.

Consigliamo di passare all'estensione ml, o v2, prima del 30 settembre 2025. Per altre informazioni sull'estensione v2, vedere Estensione dell'interfaccia della riga di comando di Azure ML e Python SDK v2.
Se è in uso Python SDK, configurare l'ambiente di sviluppo con un'area di lavoro . Una volta configurato l'ambiente di sviluppo, collegarsi all'area di lavoro nello script Python:

SI APPLICA A:Python SDK azureml v1
```
from azureml.core import Workspace

ws = Workspace.from_config() 
```

Che cos'è un cluster di elaborazione?

Un cluster di elaborazione di Azure Machine Learning è un'infrastruttura di calcolo gestito che consente di creare facilmente un ambiente di calcolo a uno o più nodi. Il cluster di elaborazione è una risorsa da poter condividere con altri utenti dell'area di lavoro. Il calcolo si ridimensiona verticalmente in modo automatico quando viene inviato un processo e può essere inserito in una Rete virtuale di Azure. I cluster di elaborazione supportano distribuzioni di ID non pubblici, nonché nelle reti virtuali. Il calcolo viene eseguito in un ambiente basato su contenitori, con la creazione di un pacchetto delle dipendenze del modello in un contenitore Docker.

I cluster di elaborazione possono eseguire processi in modo sicuro in un ambiente di rete virtuale senza richiedere alle aziende di aprire porte SSH. Il processo viene eseguito in un ambiente basato su contenitori, con la creazione di un pacchetto delle dipendenze del modello in un contenitore Docker.

Limiti

I cluster di elaborazione possono essere creati in un'area e una rete virtuali diverse rispetto all'area di lavoro dell'utente. Tuttavia, questa funzionalità è accessibile solo usando SDK v2, CLI v2 o Studio. Per altre informazioni, vedere la versione v2 degli ambienti di training sicuri.
Al momento è supportata solo la creazione (e non l'aggiornamento) di cluster tramite modelli ARM. Per l'elaborazione dell'aggiornamento, per ora si consiglia di usare l'SDK, l'interfaccia della riga di comando o l'esperienza utente di Azure.
Per alcuni aspetti, l'ambiente di calcolo di Azure Machine Learning prevede limiti predefiniti, ad esempio il numero di core che possono essere allocati. Per altre informazioni, consultare il documento Gestire e richiedere quote per risorse di Azure.
Azure consente di inserire blocchi delle risorse, in modo che non possano essere eliminate o siano di sola lettura. Non applicare blocchi delle risorse al gruppo di risorse che contiene l'area di lavoro. L'applicazione di un blocco al gruppo di risorse che contiene l'area di lavoro impedirà le operazioni di ridimensionamento per i cluster di elaborazione di Azure Machine Learning. Per altre informazioni sul blocco delle risorse, vedere Bloccare le risorse per impedire modifiche impreviste.

Suggerimento

I cluster possono in genere essere ridimensionati fino a 100 nodi, purché si disponga di una quota sufficiente per il numero di core necessari. Per impostazione predefinita, i cluster sono impostati con la comunicazione tra i nodi abilitata, ad esempio per supportare i processi MPI. È tuttavia possibile ridimensionare i cluster fino a migliaia di nodi. A tale scopo è sufficiente generare un ticket di supporto e richiedere di inserire nell'elenco degli elementi consentiti la sottoscrizione, l'area di lavoro o un cluster specifico per disabilitare la comunicazione tra i nodi.

Creazione

Tempo stimato: circa 5 minuti.

Un ambiente di calcolo di Azure Machine Learning può essere usato su più esecuzioni. L'ambiente di calcolo può essere condiviso con altri utenti nell'area di lavoro e mantenuto da un'esecuzione all'altra, ridimensionando automaticamente i nodi in base al numero di esecuzioni inviate e all'impostazione max_nodes definita nel cluster. L'impostazione min_nodes controlla il numero minimo di nodi disponibili.

I core dedicati per area per quota di famiglia di macchine virtuali e quota regionale totale, che si applica alla creazione del cluster di elaborazione, è unificata a e condivisa con la quota dell'istanza di ambiente di calcolo del training di Azure Machine Learning.

Importante

Per evitare addebiti quando non è in esecuzione alcun processo, impostare il numero minimo di nodi su 0. Questa impostazione consente ad Machine Learning di deallocare i nodi quando non sono in uso. Qualsiasi valore superiore a 0 manterrà in esecuzione tale numero di nodi, anche se non sono in uso.

Il calcolo viene ridimensionato automaticamente fino a zero nodi quando non viene usato. Le macchine virtuali dedicate vengono create per eseguire i processi in base alle esigenze.

Python SDK
Interfaccia della riga di comando di Azure

Per creare una risorsa permanente di ambiente di calcolo di Machine Learning in Python, specificare le proprietà vm_size e max_nodes. Azure Machine Learning quindi usa valori predefiniti intelligenti per le altre proprietà.

vm_size: la famiglia di macchine virtuali dei nodi creati dall'ambiente di calcolo di Azure Machine Learning.
max_nodes: il numero massimo di nodi per la scalabilità automatica durante l'esecuzione di un processo in un ambiente di calcolo di Azure Machine Learning.

SI APPLICA A:Python SDK azureml v1

from azureml.core.compute import ComputeTarget, AmlCompute
from azureml.core.compute_target import ComputeTargetException

# Choose a name for your CPU cluster
cpu_cluster_name = "cpucluster"

# Verify that cluster does not exist already
try:
    cpu_cluster = ComputeTarget(workspace=ws, name=cpu_cluster_name)
    print('Found existing cluster, use it.')
except ComputeTargetException:
    # To use a different region for the compute, add a location='<region>' parameter
    compute_config = AmlCompute.provisioning_configuration(vm_size='STANDARD_D2_V2',
                                                           max_nodes=4)
    cpu_cluster = ComputeTarget.create(ws, cpu_cluster_name, compute_config)

cpu_cluster.wait_for_completion(show_output=True)

Durante la creazione di un ambiente di calcolo di Machine Learning è anche possibile configurare diverse proprietà avanzate. Le proprietà consentono di creare un cluster permanente di dimensione fissa o all'interno di una Rete virtuale di Azure esistente nella sottoscrizione. Per informazioni dettagliate, consultare AmlCompute class (Classe AmlCompute).

Avviso

Quando si imposta il parametro location, se è un'area diversa rispetto all'area di lavoro o agli archivi dati dell'utente, si potrebbe riscontrare un aumento della latenza di rete e dei costi di trasferimento dei dati. La latenza e i costi possono aumentare nell'ambito della creazione del cluster e dell'esecuzione di processi su di esso.

SI APPLICA A:estensione per Machine Learning dell'interfaccia della riga di comando di Azure v1

az ml computetarget create amlcompute -n cpu --min-nodes 1 --max-nodes 1 -s STANDARD_D3_V2 --location westus2

Avviso

Quando si usa un cluster di elaborazione in un'area diversa rispetto all'area di lavoro o agli archivi dati dell'utente, si potrebbe riscontrare un aumento della latenza di rete e dei costi di trasferimento dei dati. La latenza e i costi possono aumentare nell'ambito della creazione del cluster e dell'esecuzione di processi su di esso.

Per altre informazioni, vedere il modulo Azure PowerShell az ml computetarget create amlcompute.

Ridurre il costo del cluster di elaborazione

È anche possibile scegliere di usare macchine virtuali con priorità bassa per eseguire alcuni o tutti i carichi di lavoro. Queste macchine virtuali non hanno una disponibilità garantita e possono essere terminate durante l'uso. Sarà necessario riavviare un processo interrotto.

Python SDK
Interfaccia della riga di comando di Azure

SI APPLICA A:Python SDK azureml v1

compute_config = AmlCompute.provisioning_configuration(vm_size='STANDARD_D2_V2',
                                                            vm_priority='lowpriority',
                                                            max_nodes=4)

SI APPLICA A:estensione per Machine Learning dell'interfaccia della riga di comando di Azure v1

Impostare vm-priority:

az ml computetarget create amlcompute --name lowpriocluster --vm-size Standard_NC6 --max-nodes 5 --vm-priority lowpriority

Configurare identità gestita

I cluster di elaborazione di Azure Machine Learning supportano anche le identità gestite per autenticare l'accesso alle risorse di Azure senza includere credenziali nel codice. Sono disponibili due tipi di identità gestite:

Un'identità gestita assegnata dal sistema viene abilitata direttamente nel cluster di elaborazione di Azure Machine Learning e nell'istanza di ambiente di calcolo. Il ciclo di vita di un'identità assegnata dal sistema è direttamente collegata al cluster di elaborazione o all'istanza dell'ambiente di calcolo. Se viene effettuata l'eliminazione del cluster di elaborazione o dell'istanza dell'ambiente di calcolo, Azure pulisce automaticamente le credenziali e l'identità in Microsoft Entra ID.
Un'identità gestita assegnata dall'utente è una risorsa di Azure autonoma fornita tramite il servizio di gestione delle identità di Azure. È possibile assegnare un'identità assegnata dall'utente a più risorse, che saranno conservate per il tempo desiderato. Questa identità gestita deve essere creata in anticipo ed essere poi convalidata come identity_id come parametro richiesto.

Python SDK
Interfaccia della riga di comando di Azure

SI APPLICA A:Python SDK azureml v1

Configurare l'identità gestita nella configurazione del provisioning:

Identità gestita assegnata dal sistema creata in un'area di lavoro denominata ws

# configure cluster with a system-assigned managed identity
compute_config = AmlCompute.provisioning_configuration(vm_size='STANDARD_D2_V2',
                                                        max_nodes=5,
                                                        identity_type="SystemAssigned",
                                                        )
cpu_cluster_name = "cpu-cluster"
cpu_cluster = ComputeTarget.create(ws, cpu_cluster_name, compute_config)

Identità gestita assegnata dall'utente creata in un'area di lavoro denominata ws

# configure cluster with a user-assigned managed identity
compute_config = AmlCompute.provisioning_configuration(vm_size='STANDARD_D2_V2',
                                                        max_nodes=5,
                                                        identity_type="UserAssigned",
                                                        identity_id=['/subscriptions/<subcription_id>/resourcegroups/<resource_group>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<user_assigned_identity>'])

cpu_cluster_name = "cpu-cluster"
cpu_cluster = ComputeTarget.create(ws, cpu_cluster_name, compute_config)

Aggiungere l'identità gestita a un cluster di elaborazione esistente denominato cpu_cluster

Identità gestita assegnata dal sistema:

# add a system-assigned managed identity
cpu_cluster.add_identity(identity_type="SystemAssigned")

Identità gestita assegnata dall'utente:

# add a user-assigned managed identity
cpu_cluster.add_identity(identity_type="UserAssigned", 
                            identity_id=['/subscriptions/<subcription_id>/resourcegroups/<resource_group>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<user_assigned_identity>'])

SI APPLICA A:estensione per Machine Learning dell'interfaccia della riga di comando di Azure v1

Creare un nuovo cluster di elaborazione gestito con identità gestita

Identità gestita assegnata dall'utente

az ml computetarget create amlcompute --name cpu-cluster --vm-size Standard_NC6 --max-nodes 5 --assign-identity '/subscriptions/<subcription_id>/resourcegroups/<resource_group>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<user_assigned_identity>'

Identità gestita assegnata dal sistema

az ml computetarget create amlcompute --name cpu-cluster --vm-size Standard_NC6 --max-nodes 5 --assign-identity '[system]'

Aggiungere un'identità gestita a un cluster esistente:

Identità gestita assegnata dall'utente

az ml computetarget amlcompute identity assign --name cpu-cluster '/subscriptions/<subcription_id>/resourcegroups/<resource_group>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<user_assigned_identity>'

Identità gestita assegnata dal sistema

az ml computetarget amlcompute identity assign --name cpu-cluster '[system]'

Nota

I cluster di elaborazione di Azure Machine Learning supportano solo un'identità gestita assegnata dal sistema o più identità gestite assegnate dall'utente, non contemporaneamente.

Utilizzo identità gestita

L'identità gestita predefinita è l'identità gestita assegnata dal sistema o la prima identità gestita assegnata dall'utente.

Durante un'esecuzione sono previste due applicazioni di un'identità:

Il sistema usa un'identità per configurare i montaggi di archiviazione dell'utente, il registro contenitori e gli archivi dati.
- In questo caso, il sistema userà l'identità gestita predefinita.
L'utente applica un'identità per accedere alle risorse dal codice per un'esecuzione inviata
- In questo caso, fornire il client_id corrispondente all'identità gestita che si desidera usare per recuperare una credenziale.
- In alternativa, ottenere l'ID del client dell'identità assegnata dall'utente tramite la variabile di ambiente DEFAULT_IDENTITY_CLIENT_ID.
Ad esempio, per recuperare un token per un archivio dati con l'identità gestita predefinita:
```
client_id = os.environ.get('DEFAULT_IDENTITY_CLIENT_ID')
credential = ManagedIdentityCredential(client_id=client_id)
token = credential.get_token('https://storage.azure.com/')
```

Risoluzione dei problemi

Esiste una possibilità per cui alcuni utenti che hanno creato l'area di lavoro di Azure Machine Learning dal portale di Azure prima della versione in disponibilità generale potrebbero non essere in grado di creare un ambiente di calcolo di Azure Machine Learning nell'area di lavoro. È possibile generare una richiesta di supporto per il servizio o creare una nuova area di lavoro tramite il portale o il SDK per annullare il blocco immediatamente.

Bloccato in fase di ridimensionamento

Se il cluster di calcolo di Azure Machine Learning risulta bloccato in fase di ridimensionamento (0 -> 0) per lo stato del nodo, ciò potrebbe essere causato da blocchi delle risorse di Azure.

Azure consente di inserire blocchi delle risorse, in modo che non possano essere eliminate o siano di sola lettura. Il blocco di una risorsa può causare risultati imprevisti. Alcune operazioni che non sembrano modificare la risorsa richiedono effettivamente azioni bloccate dal blocco.

Con Azure Machine Learning, l'applicazione di un blocco di eliminazione al gruppo di risorse per l'area di lavoro impedirà le operazioni di ridimensionamento per i cluster di calcolo di Azure Machine Learning. Per ovviare a questo problema, è consigliabile rimuovere il blocco dal gruppo di risorse e applicarlo a singoli elementi nel gruppo.

Importante

Non applicare il blocco alle risorse seguenti:

Nome risorsa	Tipo di risorsa
`<GUID>-azurebatch-cloudservicenetworksecurityggroup`	Gruppo di sicurezza di rete
`<GUID>-azurebatch-cloudservicepublicip`	Indirizzo IP pubblico
`<GUID>-azurebatch-cloudserviceloadbalancer`	Bilanciamento del carico

Queste risorse vengono usate per comunicare con il cluster di elaborazione e per eseguire operazioni come il ridimensionamento sul cluster di elaborazione. La rimozione del blocco delle risorse da queste risorse deve consentire il ridimensionamento automatico dei cluster di calcolo.

Per altre informazioni sul blocco delle risorse, vedere Bloccare le risorse per impedire modifiche impreviste.

Passaggi successivi

Usare il cluster di elaborazione per:

Condividi tramite

Creare un cluster di elaborazione di Azure Machine Learning con CLI v1

Prerequisiti

Che cos'è un cluster di elaborazione?

Limiti

Creazione

Ridurre il costo del cluster di elaborazione

Configurare identità gestita

Utilizzo identità gestita

Risoluzione dei problemi

Bloccato in fase di ridimensionamento

Passaggi successivi

Commenti e suggerimenti

Commenti e suggerimenti

Risorse aggiuntive