Che cos'è un'istanza di calcolo di Azure Machine Learning?

Un'istanza di calcolo di Azure Machine Learning è una workstation basata sul cloud gestita per i data scientist. Ogni istanza di calcolo ha un solo proprietario, anche se è possibile condividere file tra più istanze di calcolo.

Le istanze di calcolo semplificano l'introduzione allo sviluppo di Azure Machine Learning e offrono funzionalità di gestione e idoneità aziendale per gli amministratori IT.

Usare un'istanza di calcolo come ambiente di sviluppo completamente configurato e gestito nel cloud per Machine Learning. Possono essere usati anche come destinazione di calcolo per il training e l'inferenza per scopi di sviluppo e test.

Per il funzionamento della funzionalità jupyter dell'istanza di calcolo, assicurarsi che la comunicazione del socket Web non sia disabilitata. Assicurarsi che la rete consenta le connessioni websocket a *.instances.azureml.net e *.instances.azureml.ms.

Importante

Gli elementi contrassegnati (anteprima) in questo articolo sono attualmente in anteprima pubblica. La versione di anteprima viene messa a disposizione senza contratto di servizio e non è consigliata per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero presentare funzionalità limitate. Per altre informazioni, vedere Condizioni supplementari per l'utilizzo delle anteprime di Microsoft Azure.

Perché usare un'istanza di calcolo?

Un'istanza di calcolo è una workstation basata sul cloud completamente ottimizzata per l'ambiente di sviluppo di Machine Learning. e in grado di offrire i vantaggi indicati di seguito.

Vantaggi principali Descrizione
Produttività È possibile creare e distribuire modelli usando notebook integrati e gli strumenti seguenti in studio di Azure Machine Learning:
- Jupyter
- JupyterLab
- VS Code (anteprima)
L'istanza di calcolo è completamente integrata con l'area di lavoro e lo studio di Azure Machine Learning. È possibile condividere notebook e dati con altri data scientist nell'area di lavoro.
Sicurezza gestita & Riduzione del footprint per la sicurezza e aggiunta di conformità ai requisiti di sicurezza aziendali. Le istanze di calcolo offrono criteri di gestione affidabili e configurazioni di rete sicure, ad esempio:

- Autoprovisioning da modelli di Resource Manager o Azure Machine Learning SDK
- Controllo degli accessi in base al ruolo di Azure
- Supporto della rete virtuale
- Criteri di Azure per disabilitare l'accesso SSH
- Criteri di Azure per applicare la creazione in una rete virtuale
- Arresto automatico/avvio automatico in base alla pianificazione
- TLS 1.2 abilitato
Preconfigurato per ML Risparmio di tempo nelle attività di configurazione con pacchetti AML preconfigurati e aggiornati, framework di Deep Learning e driver GPU.
Personalizzazione completa Ampio supporto per i tipi di macchine virtuali di Azure, tra cui GPU e personalizzazione di basso livello persistente, come l'installazione di pacchetti e driver, che semplifica gli scenari avanzati. È anche possibile usare gli script di installazione per automatizzare la personalizzazione

Strumenti e ambienti

L'istanza di calcolo di Azure Machine Learning consente di creare, eseguire il training e distribuire modelli in un'esperienza di notebook completamente integrata nell'area di lavoro.

È possibile eseguire notebook Jupyter in VS Code usando l'istanza di calcolo come server remoto senza necessità di SSH. È anche possibile abilitare l'integrazione di VS Code tramite l'estensione SSH remota.

È possibile installare pacchetti e aggiungere kernel all'istanza di calcolo.

Gli strumenti e gli ambienti seguenti sono già installati nell'istanza di calcolo:

Ambienti degli strumenti & generali Dettagli
Driver CUDA
cuDNN
NVIDIA
Blob FUSE
Intel MPI library
Interfaccia della riga di comando di Azure
Esempi di Azure Machine Learning
Docker
Nginx
NCCL 2.0
Protobuf
Ambienti degli strumenti &R Dettagli
Kernel R

È possibile aggiungere RStudio o Posit Workbench (in precedenza RStudio Workbench) quando si crea l'istanza.

Ambienti degli strumenti &PYTHON Dettagli
Anaconda Python
Jupyter ed estensioni
Jupyterlab ed estensioni
Azure Machine Learning SDK per Python
da PyPI
Include la maggior parte dei pacchetti aggiuntivi di azureml. Per visualizzare l'elenco completo, aprire una finestra del terminale nell'istanza di calcolo in uso e avviare l'esecuzione
conda list -n azureml_py36 azureml*
Altri pacchetti PyPI jupytext
tensorboard
nbconvert
notebook
Pillow
Pacchetti Conda cython
numpy
ipykernel
scikit-learn
matplotlib
tqdm
joblib
nodejs
Pacchetti Deep Learning PyTorch
TensorFlow
Keras
Horovod
MLFlow
pandas-ml
scrapbook
Pacchetti ONNX keras2onnx
onnx
onnxconverter-common
skl2onnx
onnxmltools
Esempi di Python di Azure Machine Learning

Tutti i pacchetti Python sono installati nell'ambiente Python 3.8 - AzureML. Il sistema operativo di base dell'istanza di ambiente di calcolo è Ubuntu 20.04.

Accesso ai file

I notebook e gli script Python vengono archiviati nell'account di archiviazione predefinito dell'area di lavoro nella condivisione file di Azure. Tali file si trovano nella directory dei file dell'utente. Questo tipo di archiviazione semplifica la condivisione di notebook tra le istanze di calcolo. L'account di archiviazione consente inoltre di mantenere i notebook in modo sicuro quando si arresta o si elimina un'istanza di calcolo.

L'account di condivisione file di Azure dell'area di lavoro viene montato come unità nell'istanza di calcolo. Questa unità è la directory di lavoro predefinita per Jupyter, Jupyter Labs, RStudio e Posit Workbench. Ciò significa che i notebook e altri file creati in Jupyter, JupyterLab, RStudio o Posit vengono archiviati automaticamente nella condivisione file e disponibili anche per l'uso in altre istanze di calcolo.

I file nella condivisione file sono accessibili da tutte le istanze di calcolo presenti nella stessa area di lavoro. Tutte le modifiche apportate ai file nell'istanza di calcolo vengono salvate in modo affidabile nella condivisione file.

È anche possibile clonare gli ultimi esempi di Azure Machine Learning nella cartella della directory dei file utente nella condivisione file dell'area di lavoro.

La scrittura di file di piccole dimensioni può essere più lenta nelle unità di rete rispetto alla scrittura nel disco locale dell'istanza di calcolo stessa. Se si scrivono molti file di piccole dimensioni, provare a usare una directory direttamente nell'istanza di calcolo, ad esempio una /tmp directory. Si noti che questi file non saranno accessibili da altre istanze di calcolo.

Non archiviare i dati di training nella condivisione file dei notebook. È possibile usare la directory /tmp nell'istanza di calcolo per i dati temporanei. Tuttavia, non scrivere file di grandi dimensioni di dati nel disco del sistema operativo dell'istanza di calcolo. Il disco del sistema operativo nell'istanza di calcolo ha capacità di 128 GB. È anche possibile archiviare dati di training temporanei su disco temporaneo montato in /mnt. Le dimensioni temporanee del disco si basano sulle dimensioni della macchina virtuale scelte e possono archiviare quantità maggiori di dati se viene scelta una macchina virtuale di dimensioni superiori. È anche possibile montare archivi dati e set di dati. Tutti i pacchetti software installati vengono salvati nel disco del sistema operativo dell'istanza di calcolo. Si noti che la crittografia della chiave gestita dal cliente non è attualmente supportata per il disco del sistema operativo. Il disco del sistema operativo per l'istanza di calcolo viene crittografato con chiavi gestite da Microsoft.

Crea

Seguire la procedura descritta in Avvio rapido: Creare risorse dell'area di lavoro necessarie per iniziare a usare Azure Machine Learning per creare un'istanza di calcolo di base.

Per altre opzioni, vedere Creare una nuova istanza di calcolo.

In qualità di amministratore, è possibile creare un'istanza di calcolo per altri utenti nell'area di lavoro (anteprima).As an administrator, you can create a compute instance for others in the workspace (preview).

È anche possibile usare uno script di installazione (anteprima) per un modo automatizzato per personalizzare e configurare l'istanza di calcolo.

Altri modi per creare un'istanza di calcolo:

I core dedicati per area per ogni quota della famiglia di macchine virtuali e la quota totale a livello di area, applicabile alla creazione dell'istanza di calcolo, vengono unificati e condivisi con la quota del cluster di calcolo di training di Azure Machine Learning. L'arresto dell'istanza di calcolo non rilascia la quota per assicurarsi di poter riavviare l'istanza di calcolo. Non arrestare l'istanza di calcolo tramite il terminale del sistema operativo eseguendo un arresto sudo.

L'istanza di calcolo include il disco del sistema operativo P10. Il tipo di disco temporaneo dipende dalle dimensioni della macchina virtuale scelte. Attualmente, non è possibile modificare il tipo di disco del sistema operativo.

Destinazione del calcolo

Le istanze di calcolo possono essere usate come destinazione di calcolo di training simile ai cluster di training di calcolo di Azure Machine Learning. Tuttavia, un'istanza di calcolo ha un solo nodo, mentre un cluster di calcolo può avere più nodi.

Istanza di calcolo:

  • Ha una coda di processi.
  • Esegue processi in modo sicuro in un ambiente di rete virtuale, senza richiedere alle aziende di aprire la porta SSH. Il processo viene eseguito in un ambiente in contenitori e crea un pacchetto delle dipendenze del modello in un contenitore Docker.
  • Può eseguire più processi di piccole dimensioni in parallelo (anteprima). Un processo per core può essere eseguito in parallelo mentre il resto dei processi viene accodato.
  • Supporta processi di training distribuiti multi-GPU a nodo singolo

È possibile usare l'istanza di calcolo come destinazione di distribuzione di inferenza locale per scenari di test/debug.

Suggerimento

L'istanza di ambiente di calcolo ha un disco del sistema operativo da 120 GB. Se si esaurisce lo spazio su disco e si ottiene uno stato inutilizzabile, cancellare almeno 5 GB di spazio su disco del sistema operativo (montato su /) tramite il terminale dell'istanza di calcolo rimuovendo file/cartelle e quindi eseguire sudo reboot. Il disco temporaneo verrà liberato dopo il riavvio; non è necessario cancellare lo spazio sul disco temporaneo manualmente. Per accedere al terminale, passare alla pagina dell'elenco di calcolo o alla pagina dei dettagli dell'istanza di calcolo e fare clic sul collegamento Terminale . È possibile controllare lo spazio disponibile su disco eseguendo df -h nel terminale. Cancellare almeno 5 GB di spazio prima di eseguire sudo reboot. Non arrestare o riavviare l'istanza di calcolo tramite Studio fino a quando non è stato cancellato spazio su disco di 5 GB. Gli arresti automatici, inclusi l'avvio pianificato o l'arresto, nonché gli arresti inattivi(anteprima), non funzioneranno se il disco CI è pieno.

Passaggi successivi