Che cos'è un'istanza di calcolo di Azure Machine Learning?

Un'istanza di ambiente di calcolo di Azure Machine Learning è una workstation basata su cloud completamente gestita per i data scientist. Ogni istanza di ambiente di calcolo ha un solo proprietario, anche se è possibile condividere file tra più istanze di ambiente di calcolo.

Le istanze di ambiente calcolo semplificano l'avvio dello sviluppo di Azure Machine Learning e offrono funzionalità di gestione e amministrazione aziendali agli amministratori IT.

Usare un'istanza di ambiente calcolo come ambiente di sviluppo completamente configurato e gestito nel cloud per l'apprendimento automatico. Possono essere usate anche come destinazione di calcolo per il training e l'inferenza per finalità di sviluppo e test.

Per il corretto funzionamento della funzione Jupyter dell'istanza di ambiente di calcolo, assicurarsi che la comunicazione con il Web socket non sia disabilitata. Assicurarsi che la rete consenta le connessioni websocket a *.instances.azureml.net e *.instances.azureml.ms.

Importante

Gli elementi contrassegnati come (anteprima) in questo articolo sono attualmente disponibili in anteprima pubblica. La versione di anteprima viene messa a disposizione senza contratto di servizio e non è consigliata per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero presentare funzionalità limitate. Per altre informazioni, vedere le Condizioni supplementari per l'uso delle anteprime di Microsoft Azure.

Perché usare un'istanza di calcolo?

Un'istanza di ambiente calcolo è una workstation basata su cloud completamente gestita, ottimizzata per l'ambiente di sviluppo di apprendimento automatico. Sono disponibili i seguenti benefit:

Vantaggi chiave Descrizione
Produttività È possibile compilare e distribuire modelli usando notebook integrati e gli strumenti seguenti in studio di Azure Machine Learning:
- Jupyter
- JupyterLab
- VS Code (anteprima)
L'istanza di ambiente calcolo è completamente integrata con l'area di lavoro e lo studio di Azure Machine Learning. È possibile condividere notebook e dati con altri data scientist nell'area di lavoro.
Gestione e sicurezza Riduzione del footprint per la sicurezza e aggiunta di conformità ai requisiti di sicurezza aziendali. Le istanze di calcolo offrono criteri di gestione affidabili e configurazioni di rete sicure, ad esempio:

- Provisioning automatico da modelli di Resource Manager o di Azure Machine Learning SDK
- Controllo degli accessi in base al ruolo di Azure
- Supporto della rete virtuale
- Criteri di Azure per disabilitare l'accesso SSH
- Criteri di Azure per applicare la creazione in una rete virtuale
- Arresto automatico/avvio automatico in base alla pianificazione
- TLS 1.2 abilitato
Preconfigurato per ML Risparmio di tempo nelle attività di configurazione con pacchetti AML preconfigurati e aggiornati, framework di Deep Learning e driver GPU.
Personalizzazione completa Ampio supporto per i tipi di macchine virtuali di Azure, tra cui GPU e personalizzazione di basso livello persistente, come l'installazione di pacchetti e driver, che semplifica gli scenari avanzati. È anche possibile usare gli script di installazione per automatizzare la personalizzazione

Strumenti e ambienti

L'istanza di calcolo di Azure Machine Learning consente di creare, eseguire il training e distribuire modelli in un'esperienza di notebook completamente integrata nell'area di lavoro.

È possibile eseguire notebook dall'area di lavoro di Azure Machine Learning, Jupyter, JupyterLabo Visual Studio Code. VS Code Desktop può essere configurato per accedere all'istanza di ambiente di calcolo. In alternativa, usare VS Code per il Web, direttamente dal browser e senza installazioni o dipendenze necessarie.

È consigliabile provare VS Code per il Web per sfruttare l'ambiente di sviluppo avanzato e di integrazione semplice che offre. VS Code per il Web offre molte delle funzionalità di VS Code Desktop più apprezzate, tra cui l'evidenziazione della ricerca e della sintassi durante la navigazione e la modifica. Per altre informazioni sull'uso di VS Code Desktop e VS Code per il Web, vedere Avviare Visual Studio Code integrato con Azure Machine Learning (anteprima) e Lavorare in VS Code da remoto con connessione a un'istanza di ambiente di calcolo (anteprima).

È possibile installare pacchetti e aggiungere kernel all'istanza di ambiente di calcolo.

Gli strumenti e gli ambienti seguenti sono già installati nell'istanza di ambiente di calcolo:

Strumenti generali e ambienti Dettagli
Driver CUDA
cuDNN
NVIDIA
Blob FUSE
Intel MPI library
Interfaccia della riga di comando di Azure
Esempi di Azure Machine Learning
Docker
Nginx
NCCL 2.0
Protobuf
Strumenti e ambienti R Dettagli
Kernel R

È possibile aggiungere RStudio o Posit Workbench (in precedenza RStudio Workbench) quando si crea l'istanza.

Strumenti e ambienti PYTHON Dettagli
Anaconda Python
Jupyter ed estensioni
Jupyterlab ed estensioni
SDK di Azure Machine Learning
per Python
da PyPI
Include azure-ai-ml e molti pacchetti aggiuntivi di Azure comuni. Per visualizzare l'elenco completo,
aprire una finestra del terminale nell'istanza di ambiente di calcolo ed eseguire
conda list -n azureml_py310_sdkv2 ^azure
Altri pacchetti PyPI jupytext
tensorboard
nbconvert
notebook
Pillow
Pacchetti Conda cython
numpy
ipykernel
scikit-learn
matplotlib
tqdm
joblib
nodejs
Pacchetti Deep Learning PyTorch
TensorFlow
Keras
Horovod
MLFlow
pandas-ml
scrapbook
Pacchetti ONNX keras2onnx
onnx
onnxconverter-common
skl2onnx
onnxmltools
Campioni di Python di Azure Machine Learning

Il sistema operativo di base dell'istanza di ambiente di calcolo è Ubuntu.

Accesso ai file

I notebook e gli script Python vengono archiviati nell'account di archiviazione predefinito dell'area di lavoro nella condivisione file di Azure. Tali file si trovano nella directory ''File dell'utente''. Questo tipo di archiviazione semplifica la condivisione di notebook tra le istanze di calcolo. L'account di archiviazione consente inoltre di mantenere i notebook in modo sicuro quando si arresta o si elimina un'istanza di calcolo.

L'account di condivisione file di Azure dell'area di lavoro viene montato come unità nell'istanza di calcolo. Questa unità è la directory di lavoro predefinita per Jupyter, Jupyter Labs, RStudio e Posit Workbench. Ciò significa che i notebook e gli altri file creati in Jupyter, JupyterLab, VS Code per Web, RStudio o Posit vengono archiviati automaticamente nella condivisione file e sono disponibili per l'uso anche in altre istanze di ambiente di calcolo.

I file nella condivisione file sono accessibili da tutte le istanze di calcolo presenti nella stessa area di lavoro. Tutte le modifiche apportate ai file nell'istanza di calcolo vengono salvate in modo affidabile nella condivisione file.

È anche possibile clonare gli ultimi esempi di Azure Machine Learning nella cartella della directory dei file utente nella condivisione file dell'area di lavoro.

La scrittura di file di piccole dimensioni può essere più lenta nelle unità di rete rispetto alla scrittura nel disco locale dell'istanza di ambiente di calcolo stessa. Se si scrivono molti file di piccole dimensioni, provare a usare una directory direttamente nell'istanza di ambiente di calcolo, ad esempio una directory /tmp. Si noti che questi file non saranno accessibili da altre istanze di ambiente di calcolo.

Non archiviare i dati di training nella condivisione file dei notebook. Per informazioni sulle varie opzioni per archiviare i dati, vedere Accedere ai dati in un processo.

È possibile usare la directory /tmp nell'istanza di calcolo per i dati temporanei. Tuttavia, non scrivere file di grandi dimensioni di dati nel disco del sistema operativo dell'istanza di calcolo. Il disco del sistema operativo nell'istanza di ambiente di calcolo ha una capacità di 128 GB. È anche possibile archiviare i dati di training temporanei su disco temporaneo montato in /mnt. Le dimensioni temporanee del disco si basano sulle dimensioni della macchina virtuale scelte e possono archiviare quantità maggiori di dati se viene scelta una macchina virtuale di dimensioni superiori. Tutti i pacchetti software installati vengono salvati nel disco del sistema operativo dell'istanza di calcolo. Si noti che la crittografia della chiave gestita dal cliente non è attualmente supportata per il disco del sistema operativo. Il disco del sistema operativo per l'istanza di calcolo viene crittografato con chiavi gestite da Microsoft.

È anche possibile montare archivi dati e set di dati.

Creazione

Seguire la procedura descritta in Creare le risorse necessarie per iniziare per creare un'istanza di ambiente di calcolo di base.

Per altre opzioni, vedere Creare una nuova istanza di ambiente di calcolo.

Gli amministratori possono creare un'istanza di ambiente di calcolo per altri utenti nell'area di lavoro.

È possibile anche usare uno script di configurazione per personalizzare e configurare in automatico l'istanza di ambiente calcolo.

Altri modi per creare un'istanza di ambiente di calcolo:

I core dedicati per area e per quota di famiglia di macchine virtuali e quota totale a livello di area, che si applica alla creazione del cluster di istanze di ambiente di calcolo, è unificata e condivisa con la quota del cluster di elaborazione del training di Azure Machine Learning. L'arresto dell'istanza di ambiente di calcolo non rilascia la quota per assicurarsi di poterla riavviare. Non arrestare l'istanza di ambiente di calcolo tramite il terminale del sistema operativo eseguendo un arresto sudo.

L'istanza di calcolo include il disco del sistema operativo P10. Il tipo di disco temporaneo dipende dalle dimensioni della macchina virtuale scelte. Attualmente, non è possibile modificare il tipo di disco del sistema operativo.

Destinazione del calcolo

Le istanze di calcolo possono essere usate come una destinazione di calcolo di training simile ai cluster di training di elaborazione di Azure Machine Learning. Tuttavia, un'istanza di calcolo ha un solo nodo, mentre un cluster di elaborazione può avere più nodi.

Un'istanza di ambiente di calcolo:

  • Ha una coda di processi.
  • Esegue i processi in modo sicuro in un ambiente di rete virtuale senza richiedere alle aziende di aprire porte SSH. Il processo viene eseguito in un ambiente containerizzato, con la creazione di un pacchetto delle dipendenze del modello in un contenitore Docker.
  • Può eseguire più processi di piccole dimensioni in parallelo. Un processo per vCPU può essere eseguito in parallelo mentre il resto dei processi viene aggiunto alla coda.
  • Supporta processi di training distribuiti su più GPU a nodo singolo

È possibile usare l'istanza di ambiente di calcolo come destinazione di distribuzione di inferenza locale per gli scenari di test/debug.

Suggerimento

L'istanza di ambiente di calcolo ha un disco del sistema operativo da 120 GB. Se lo spazio su disco è insufficiente e si entra in uno stato inutilizzabile, cancellare almeno 5 GB di spazio su disco nell'istanza di ambiente di calcolo del sistema operativo (montato su /) tramite il terminale dell'istanza di ambiente di calcolo rimuovendo file/cartelle, quindi eseguire l'operazione sudo reboot. Lo spazio su disco temporaneo verrà liberato dopo un riavvio; non è necessario cancellare lo spazio sul disco temporaneo manualmente. Per accedere al terminale, passare alla pagina di elenco di calcolo o alla pagina dei dettagli dell'istanza di ambiente di calcolo e selezionare il collegamento Terminale. È possibile controllare lo spazio disponibile su disco eseguendo df -h nel terminale. Cancellare almeno 5 GB di spazio prima di eseguire sudo reboot. Non arrestare o riavviare l'istanza di ambiente di calcolo tramite Studio fino a quando non sono stati liberati 5 GB di spazio su disco. Gli arresti automatici, inclusi l'avvio pianificato o l'arresto, nonché gli arresti inattivi, non funzioneranno se il disco dell'istanza di ambiente di calcolo è pieno.

Passaggi successivi