Creare un cluster di elaborazione di Azure Machine Learning

Articolo
03/25/2024

SI APPLICA A:Estensione ML dell'interfaccia della riga di comando di Azure v2 (corrente)Python SDK azure-ai-ml v2 (corrente)

Questo articolo spiega come creare e gestire un cluster di elaborazione nell'area di lavoro di Azure Machine Learning.

È possibile usare il cluster di elaborazione di Azure Machine Learning per distribuire il processo di training o di inferenza batch in un cluster di nodi di calcolo CPU o GPU nel cloud. Per altre informazioni sulle dimensioni delle macchine virtuali che includono GPU, consultare il documento Dimensioni delle macchine virtuali ottimizzate per GPU.

Scopri come:

Creare un cluster di elaborazione.
Ridurre il costo del cluster di elaborazione con macchine virtuali con priorità bassa.
Configurare un'identità gestita per il cluster.

Nota

Invece di creare un cluster di calcolo, usare l'ambiente di calcolo serverless per eseguire l'offload della gestione del ciclo di vita di calcolo in Azure Machine Learning.

Prerequisiti

Un'area di lavoro di Azure Machine Learning. Per altre informazioni, vedere Gestire aree di lavoro di Azure Machine Learning.
L'estensione dell'interfaccia della riga di comando di Azure per il servizio Machine Learning (v2), Azure Machine Learning Python SDK, o l'estensione Azure Machine Learning per Visual Studio Code.
Se si usa Python SDK, configurare l'ambiente di sviluppo con un'area di lavoro. Dopo aver configurato l'ambiente di sviluppo, collegarlo all'area di lavoro nello script Python:

SI APPLICA A: Python SDK azure-ai-ml v2 (corrente)

Eseguire questo codice per connettersi all'area di lavoro di Azure ML.

Sostituire l'ID sottoscrizione, il nome del gruppo di risorse e il nome dell'area di lavoro nel codice seguente. Per trovare questi valori:
1. Accedere ad Azure Machine Learning Studio.
2. Aprire l'area di lavoro che si vuole usare.
3. Nella barra degli strumenti dello studio di Azure Machine Learning in alto a destra selezionare il nome dell'area di lavoro.
4. Copiare il valore dell'area di lavoro, il gruppo di risorse e l'ID sottoscrizione nel codice.
5. Se si usa un notebook all'interno dello studio, sarà necessario copiare un valore, chiudere l'area e incollare, quindi proseguire con quello successivo.
```
# Enter details of your AML workspace
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace = "<AML_WORKSPACE_NAME>"
```
```
# get a handle to the workspace
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace
)
```
ml_client è un gestore dell'area di lavoro che verrà usato per gestire altre risorse e processi.

Che cos'è un cluster di elaborazione?

Un cluster di elaborazione di Azure Machine Learning è un'infrastruttura di calcolo gestito che consente di creare facilmente un ambiente di calcolo a uno o più nodi. Il cluster di elaborazione è una risorsa da poter condividere con altri utenti dell'area di lavoro. Il calcolo si ridimensiona verticalmente in modo automatico quando viene inviato un processo e può essere inserito in una Rete virtuale di Azure. I cluster di elaborazione supportano distribuzioni di ID non pubblici, nonché nelle reti virtuali. Il calcolo viene eseguito in un ambiente basato su contenitori, con la creazione di un pacchetto delle dipendenze del modello in un contenitore Docker.

I cluster di elaborazione possono eseguire processi in modo protetto in una rete virtuale gestita o in una rete virtuale di Azure, senza richiedere alle aziende di aprire porte SSH. Il processo viene eseguito in un ambiente basato su contenitori, con la creazione di un pacchetto delle dipendenze del modello in un contenitore Docker.

Limiti

I cluster di elaborazione possono essere creati in un'area diversa rispetto all'area di lavoro dell'utente. Questa funzionalità è disponibile solo per i cluster di elaborazione, non per le istanze di ambiente di calcolo.

Avviso

Quando si usa un cluster di elaborazione in un'area diversa rispetto all'area di lavoro o agli archivi dati, si potrebbe riscontrare un aumento della latenza di rete e dei costi di trasferimento dei dati. La latenza e i costi possono verificarsi durante la creazione del cluster e durante l'esecuzione di processi in tale cluster.
Per alcuni aspetti, l'ambiente di calcolo di Azure Machine Learning prevede limiti predefiniti, ad esempio il numero di core che possono essere allocati. Per altre informazioni, consultare il documento Gestire e richiedere quote per risorse di Azure.
Azure consente di inserire blocchi sulle risorse, in modo che non possano essere eliminate o siano di sola lettura. Non applicare blocchi al gruppo di risorse che contiene l'area di lavoro. L'applicazione di un blocco al gruppo di risorse che contiene l'area di lavoro impedisce le operazioni di ridimensionamento per i cluster di elaborazione di Azure Machine Learning. Per altre informazioni sul blocco delle risorse, vedere Bloccare le risorse per impedire modifiche impreviste.

Creazione

Tempo stimato: circa cinque minuti.

Nota

Se si usa l'ambiente di elaborazione serverless, non è necessario creare un cluster di elaborazione.

Un ambiente di calcolo di Azure Machine Learning può essere usato su più esecuzioni. L'ambiente di calcolo può essere condiviso con altri utenti nell'area di lavoro e mantenuto da un'esecuzione all'altra, ridimensionando automaticamente i nodi in base al numero di esecuzioni inviate e all'impostazione max_nodes definita per il cluster. L'impostazione min_nodes controlla il numero minimo di nodi disponibili.

I core dedicati per area e per quota di famiglia di macchine virtuali e quota totale a livello di area, che si applica alla creazione del cluster di elaborazione, è unificata a e condivisa con la quota dell'istanza di ambiente di calcolo del training di Azure Machine Learning.

Importante

Per evitare addebiti quando non sono in esecuzione processi, impostare il numero minimo di nodi su 0. Questa impostazione consente ad Machine Learning di deallocare i nodi quando non sono in uso. Qualsiasi valore superiore a 0 manterrà in esecuzione tale numero di nodi, anche se non sono in uso.

Il calcolo viene ridimensionato automaticamente fino a zero nodi quando non viene usato. Le macchine virtuali dedicate vengono create per eseguire i processi in base alle esigenze.

Per creare un cluster di calcolo, usare gli esempi seguenti:

Per creare una risorsa permanente di ambiente di calcolo di Machine Learning in Python, specificare le proprietà size e max_instances. Azure Machine Learning quindi usa valori predefiniti intelligenti per le altre proprietà.

size: la famiglia di macchine virtuali dei nodi creati dall'ambiente di calcolo di Azure Machine Learning.
max_instances: il numero massimo di nodi per la scalabilità automatica durante l'esecuzione di un processo in un ambiente di calcolo di Azure Machine Learning.

SI APPLICA A: Python SDK azure-ai-ml v2 (corrente)

from azure.ai.ml.entities import AmlCompute

cluster_basic = AmlCompute(
    name="basic-example",
    type="amlcompute",
    size="STANDARD_DS3_v2",
    location="westus",
    min_instances=0,
    max_instances=2,
    idle_time_before_scale_down=120,
)
ml_client.begin_create_or_update(cluster_basic).result()

Durante la creazione di un ambiente di calcolo di Machine Learning è anche possibile configurare diverse proprietà avanzate. Le proprietà consentono di creare un cluster permanente di dimensione fissa o all'interno di una Rete virtuale di Azure esistente nella sottoscrizione. Per informazioni dettagliate, consultare AmlCompute class (Classe AmlCompute).

Avviso

Quando si imposta il parametro location, se è un'area diversa rispetto all'area di lavoro o agli archivi dati dell'utente, si potrebbe riscontrare un aumento della latenza di rete e dei costi di trasferimento dei dati. La latenza e i costi possono verificarsi durante la creazione del cluster e durante l'esecuzione di processi in tale cluster.

SI APPLICA A:Estensione ML dell'interfaccia della riga di comando di Azure v2 (corrente)

az ml compute create -f create-cluster.yml

Dove si trova il file create-cluster.yml:

$schema: https://azuremlschemas.azureedge.net/latest/amlCompute.schema.json 
name: location-example
type: amlcompute
size: STANDARD_DS3_v2
min_instances: 0
max_instances: 2
idle_time_before_scale_down: 120
location: westus

Avviso

Quando si usa un cluster di elaborazione in un'area diversa rispetto all'area di lavoro o agli archivi dati dell'utente, si potrebbe riscontrare un aumento della latenza di rete e dei costi di trasferimento dei dati. La latenza e i costi possono verificarsi durante la creazione del cluster e durante l'esecuzione di processi in tale cluster.

Creare un cluster di elaborazione a nodo singolo o a più nodi per carichi di lavoro di training, inferenza batch o apprendimento per rinforzo.

Passare ad Azure Machine Learning Studio.
In Gestisci selezionare Calcolo.
Se non sono presenti risorse di calcolo, selezionare Crea nella parte centrale della pagina.
Se viene visualizzato un elenco delle risorse di calcolo, selezionare +Nuovo sopra l'elenco.
Nelle schede in alto selezionare Cluster di elaborazione.

Compilare il modulo come segue:

Campo	Descrizione
Ubicazione	L'area di Azure dove viene creato il cluster di elaborazione. Per impostazione predefinita, si trova nella stessa località dell'area di lavoro. Se la quota disponibile non è sufficiente nell'area predefinita, passare a un'area diversa per altre opzioni. Quando si usa un'area diversa rispetto all'area di lavoro o agli archivi dati dell'utente, si potrebbe riscontrare un aumento della latenza di rete e dei costi di trasferimento dei dati. La latenza e i costi possono verificarsi durante la creazione del cluster e durante l'esecuzione di processi in tale cluster.
Tipo di macchina virtuale	Scegliere CPU o GPU. Questo tipo non può essere modificato dopo la creazione.
Virtual machine priority	Scegliere Dedicato o Priorità bassa. Le macchine virtuali con priorità bassa sono più economiche, ma non garantiscono i nodi di calcolo. Il processo potrebbe essere annullato.
Dimensioni della macchina virtuale	Le dimensioni di macchina virtuale supportate potrebbero essere limitate nella propria area. Controllare l'elenco di disponibilità.

Selezionare Avanti per passare a Impostazioni avanzate e compilare il modulo come indicato di seguito:

Campo	Descrizione
Nome del calcolo	* Il nome è obbligatorio e deve avere una lunghezza compresa tra tre e 24 caratteri. * I caratteri validi includono le lettere minuscole e maiuscole, le cifre e il carattere -. * Il nome deve iniziare con una lettera. * Il nome deve essere univoco in tutti gli ambienti di calcolo esistenti all'interno di un'area di Azure. Se il nome scelto non è univoco, verrà visualizzato un avviso. * Se si usa il carattere -, deve essere seguito da almeno una lettera nel nome.
Numero minimo di nodi	Numero minimo di nodi di cui si vuole effettuare il provisioning. Se si vuole un numero dedicato di nodi, impostare qui il numero. Per risparmiare, impostare il valore minimo su zero in modo da non pagare per i nodi quando il cluster è inattivo.
Maximum number of nodes	Numero massimo di nodi di cui si vuole effettuare il provisioning. Quando viene inviato un processo, per l'ambiente di calcolo verrà attivato automaticamente questo numero massimo di nodi.
Secondi di inattività prima della riduzione	Tempo di inattività prima del ridimensionamento al numero minimo di nodi per il cluster.
Abilitare l'accesso SSH	Usare le stesse istruzioni di Abilitare l'accesso SSH per un'istanza di ambiente di calcolo.
Impostazioni avanzate	Facoltativo. Configurare le impostazioni di rete. * Se si tratta di una rete virtuale di Azure, specificare il gruppo di risorse, la rete virtuale e la subnet per creare l'istanza di ambiente di calcolo nella rete. Per altre informazioni, vedere Requisiti di rete. Se si tratta di una rete gestita di Azure Machine Learning, il cluster di elaborazione viene visualizzato automaticamente nella rete gestita. Per altre informazioni, vedere Ambienti di calcolo gestiti con una rete gestita. Non viene configurato alcun IP pubblico se per il cluster di calcolo esiste un IP pubblico quando si trova in una rete. * Assegnare un'identità gestita per concedere l'accesso alle risorse.

Seleziona Crea.

Abilitare l'accesso SSH

L'accesso SSH è disabilitato per impostazione predefinita. L'accesso SSH non può essere modificato dopo la creazione. Assicurarsi di abilitare l'accesso se si prevede di eseguire il debug in modo interattivo con VS Code da remoto.

Dopo aver selezionato Avanti: Impostazioni Avanzate:

Attivare Abilita l'accesso SSH.
In Origine chiave pubblica SSH selezionare una delle opzioni nell'elenco a discesa:
- Se si genera una nuova coppia di chiavi:
  1. Immettere un nome per la chiave in Nome coppia di chiavi.
  2. Seleziona Crea.
  3. Selezionare Scarica la chiave privata e crea l'ambiente di calcolo. La chiave viene in genere scaricata nella cartella Download.
- Se si seleziona Usa la chiave pubblica esistente archiviata in Azure, cercare e selezionare la chiave in Chiave archiviata.
- Se si seleziona Usa chiave pubblica esistente, usare una chiave pubblica RSA in formato a una riga (che inizia con "ssh-rsa") oppure il formato PEM a più righe. È possibile generare le chiavi SSH con strumenti quali ssh-keygen in Linux o PuttYgen in Windows.

Connettersi tramite accesso SSH

Dopo aver creato un ambiente di calcolo con accesso SSH abilitato, seguire questa procedura per accedere.

Trovare l'ambiente di calcolo nelle risorse dell'area di lavoro:
1. A sinistra selezionare Calcolo.
2. Usare le schede in alto e selezionare Istanza di ambiente di calcolo o Cluster di elaborazione per trovare il computer.
Selezionare il nome dell'ambiente di calcolo nell'elenco delle risorse.
Trovare la stringa di connessione:
- Per un'istanza di ambiente di calcolo selezionare Connetti in alto nella sezione Dettagli.
- Per un cluster di elaborazione selezionare Nodi in alto e quindi selezionare Stringa di connessione nella tabella per il nodo.
Copiare la stringa di connessione.
Per Windows aprire PowerShell o un prompt dei comandi:
1. Passare alla directory o alla cartella dove è archiviata la chiave.
2. Aggiungere il flag -i alla stringa di connessione per individuare la chiave privata e il punto di archiviazione:
  
  ssh -i <keyname.pem> azureuser@... (rest of connection string)
Per gli utenti Linux: seguire la procedura da Creare e usare una coppia di chiavi SSH per le macchine virtuali Linux in Azure
Per l'uso di SCP:

scp -i key.pem -P {port} {fileToCopyFromLocal } azureuser@yourComputeInstancePublicIP:~/{destination}

Ridurre il costo del cluster di elaborazione con macchine virtuali con priorità bassa.

È anche possibile scegliere di usare macchine virtuali con priorità bassa per eseguire alcuni o tutti i carichi di lavoro. Queste macchine virtuali non hanno una disponibilità garantita e possono essere terminate durante l'uso. È necessario riavviare un processo interrotto.

L'uso delle macchine virtuali con priorità bassa consente di sfruttare la capacità inutilizzata di Azure con un notevole risparmio sui costi. In qualsiasi momento in cui Azure richiede di nuovo la capacità, l'infrastruttura di Azure rimuove le macchine virtuali con priorità bassa di Azure. Di conseguenza, le macchine virtuali con priorità bassa di Azure sono ideali per carichi di lavoro in grado di gestire le interruzioni. La quantità di capacità disponibile dipende dalle dimensioni, dall'area, dal momento della giornata e da altri fattori. Quando si distribuiscono macchine virtuali con priorità bassa di Azure, Azure le alloca se c'è capacità disponibile, ma non esiste alcun contratto di servizio per queste macchine virtuali. Una macchina virtuale con priorità bassa di Azure non offre garanzie di disponibilità elevata. In qualsiasi momento in cui Azure richiede di nuovo la capacità, l'infrastruttura di Azure rimuove le macchine virtuali con priorità bassa di Azure.

Usare uno di queste soluzioni per specificare una macchina virtuale con priorità bassa:

SI APPLICA A: Python SDK azure-ai-ml v2 (corrente)

from azure.ai.ml.entities import AmlCompute

cluster_low_pri = AmlCompute(
    name="low-pri-example",
    size="STANDARD_DS3_v2",
    min_instances=0,
    max_instances=2,
    idle_time_before_scale_down=120,
    tier="low_priority",
)
ml_client.begin_create_or_update(cluster_low_pri).result()

SI APPLICA A:Estensione ML dell'interfaccia della riga di comando di Azure v2 (corrente)

Impostare vm-priority:

az ml compute create -f create-cluster.yml

Dove si trova il file create-cluster.yml:

$schema: https://azuremlschemas.azureedge.net/latest/amlCompute.schema.json 
name: low-pri-example
type: amlcompute
size: STANDARD_DS3_v2
min_instances: 0
max_instances: 2
idle_time_before_scale_down: 120
tier: low_priority

Nota

Se si usa l'ambiente di elaborazione serverless, non è necessario creare un cluster di elaborazione. Per specificare un ambiente di elaborazione serverless con priorità bassa, impostare job_tier su Spot nelle impostazioni della coda.

Configurare l'identità gestita

Per informazioni su come configurare un'identità gestita con il cluster di elaborazione, vedere Impostare l'autenticazione tra Azure Machine Learning e altri servizi.

Risoluzione dei problemi

È possibile che alcuni utenti che hanno creato l'area di lavoro di Azure Machine Learning dal portale di Azure prima della versione in disponibilità generale non riescano a creare un ambiente di calcolo di Azure Machine Learning nell'area di lavoro. È possibile generare una richiesta di supporto per il servizio o creare una nuova area di lavoro tramite il portale o l'SDK per annullare il blocco immediatamente.

Importante

Se l'istanza di ambiente di calcolo o i cluster di calcolo si basano su una di queste serie, ricrearle con un'altra dimensione della macchina virtuale prima della data di ritiro per evitare interruzioni del servizio.

Queste serie sono state ritirate il 31 agosto 2023:

Queste serie verranno ritirate il 31 agosto 2024:

Blocco in fase di ridimensionamento

Se il cluster di calcolo di Azure Machine Learning risulta bloccato in fase di ridimensionamento (0 -> 0) per lo stato del nodo, il problema potrebbe dipendere da blocchi delle risorse di Azure.

Azure consente di inserire blocchi delle risorse, in modo che non possano essere eliminate o siano di sola lettura. Il blocco di una risorsa può causare risultati imprevisti. Alcune operazioni che non sembrano modificare la risorsa richiedono effettivamente azioni bloccate dal blocco.

Con Azure Machine Learning, l'applicazione di un blocco di eliminazione al gruppo di risorse per l'area di lavoro impedirà le operazioni di ridimensionamento per i cluster di calcolo di Azure Machine Learning. Per ovviare a questo problema, è consigliabile rimuovere il blocco dal gruppo di risorse e applicarlo a singoli elementi nel gruppo.

Importante

Non applicare il blocco alle risorse seguenti:

Nome risorsa	Tipo di risorsa
`<GUID>-azurebatch-cloudservicenetworksecurityggroup`	Gruppo di sicurezza di rete
`<GUID>-azurebatch-cloudservicepublicip`	Indirizzo IP pubblico
`<GUID>-azurebatch-cloudserviceloadbalancer`	Bilanciamento del carico

Queste risorse vengono usate per comunicare con il cluster di elaborazione e per eseguire operazioni come il ridimensionamento sul cluster di elaborazione. La rimozione del blocco delle risorse da queste risorse deve consentire il ridimensionamento automatico dei cluster di calcolo.

Per altre informazioni sul blocco delle risorse, vedere Bloccare le risorse per impedire modifiche impreviste.

Passaggio successivo

Usare il cluster di elaborazione per:

Creare un cluster di elaborazione di Azure Machine Learning

Prerequisiti

Che cos'è un cluster di elaborazione?

Limiti

Creazione

Ridurre il costo del cluster di elaborazione con macchine virtuali con priorità bassa.

Configurare l'identità gestita

Risoluzione dei problemi

Blocco in fase di ridimensionamento

Passaggio successivo

Risorse aggiuntive