Cos'è la Azure Data Science Virtual Machine per Linux e Windows?

La Data Science Virtual Machine (DSVM) è un'immagine di VM personalizzata sulla piattaforma cloud di Azure creata specificamente per le attività di data science. Include diversi strumenti comuni per data science e strumenti preinstallati e preconfigurati per implementare rapidamente la creazione di applicazioni intelligenti per l'analisi avanzata.

Importante

Gli elementi contrassegnati (anteprima) in questo articolo sono attualmente in anteprima pubblica. La versione di anteprima viene messa a disposizione senza contratto di servizio e non è consigliata per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero presentare funzionalità limitate. Per altre informazioni, vedere Condizioni supplementari per l'utilizzo delle anteprime di Microsoft Azure.

Data Science Virtual Machine è disponibile in:

  • Windows Server 2019
  • Ubuntu 20.04 LTS

Inoltre, microsoft è lieta di offrire Azure DSVM per PyTorch (anteprima), un'immagine Ubuntu 20.04 di Azure Marketplace ottimizzata per carichi di lavoro di Deep Learning distribuiti di grandi dimensioni. Viene preinstallato e convalidato con la versione più recente di PyTorch per ridurre i costi di installazione e accelerare il time-to-value. Include varie funzionalità di ottimizzazione (ONNX Runtime, DeepSpeed, MSCCL, ORTMoE, Fairscale, Nvidia Apex), nonché uno stack aggiornato con le versioni compatibili più recenti di Ubuntu, Python, PyTorch, CUDA.

Confronto con Azure Machine Learning

Data Science Virtual Machine è un'immagine VM per data science ma Azure Machine Learning (AzureML) è una piattaforma end-to-end che include:

  • Risorse di calcolo completamente gestite
    • Compute Instances (Istanze di calcolo)
    • Cluster di elaborazione per attività di Machine Learning distribuito
    • Cluster di inferenza per assegnazione di punteggi in tempo reale
  • Archivi dati (ad esempio BLOB, Azure Data Lake Storage Gen2, database SQL)
  • Verifica degli esperimenti
  • Gestione di modelli
  • Notebook
  • Ambienti (gestione delle dipendenze di Conda e R)
  • Etichettatura
  • Pipeline (automatizzazione dei flussi di lavoro di data science end-to-end)

Confronto con le istanze di ambiente di calcolo di AzureML

Le istanze di ambiente di calcolo di Azure Machine Learning sono un'immagine VM completamente configurata e gestita, mentre Data Science Virtual Machine è una VM non gestita.

Le differenze essenziali tra queste due offerte di prodotti sono illustrate di seguito:

Funzionalità Data science
VM
AzureML
Istanza di ambiente di calcolo
Completamente gestita No
Supporto delle lingue Python, R, Julia, SQL, C#,
Java, Node.js, F#
Python e R
Sistema operativo Ubuntu
Windows
Ubuntu
Opzione per GPU preconfigurata
Opzione per aumento delle prestazioni
Accesso SSH
Accesso RDP No
Predefinito
Notebook ospitati
No
(richiede configurazione aggiuntiva)
Accesso Single Sign-On predefinito No
(richiede configurazione aggiuntiva)
Collaborazione predefinita No
Strumenti preinstallati Jupyter(lab), VSCode,
Visual Studio, PyCharm, Juno,
Power BI Desktop, SSMS,
Microsoft Office 365, Apache Drill
Jupyter(lab)

Caso d'uso di esempio

Di seguito vengono illustrati alcuni casi d'uso comuni per i clienti della DSVM.

Valutazione e sperimentazione a breve termine

È possibile usare la DSVM per valutare o apprendere nuovi strumenti di data science, in particolare attraverso alcuni degli esempi e delle procedure dettagliate pubblicati.

Deep Learning con GPU

Nella DSVM i modelli di training possono usare algoritmi di Deep Learning su hardware basato su GPU (Graphics Processing Unit). Sfruttando il vantaggio della scalabilità delle VM della piattaforma Azure, la DSVM consente di usare hardware basato su GPU nel cloud secondo specifiche esigenze. È possibile passare a una VM basata su GPU durante il training di modelli di grandi dimensioni o quando sono necessari calcoli ad alta velocità, mantenendo lo stesso disco del sistema operativo. È possibile scegliere uno degli SKU di macchine virtuali abilitate per la GPU della serie N con la DSVM. Si noti che gli SKU di macchine virtuali abilitate per la GPU non sono supportati negli account Azure gratuiti.

Nelle edizioni per Windows della DSVM sono preinstallati i driver di GPU, i framework e le versioni per GPU dei framework di Deep Learning. Nelle edizioni per Linux, il Deep Learning su GPU è abilitato sulle DSVM Ubuntu.

È anche possibile distribuire l'edizione per Ubuntu o Windows della DSVM in una macchina virtuale di Azure non basata su GPU. In questo caso tutti i framework di Deep Learning eseguiranno il fallback alla modalità CPU.

Altre informazioni sui framework di Deep Learning e IA disponibili.

Preparazione e formazione sull'analisi scientifica dei dati

Gli istruttori e i formatori aziendali che tengono corsi di data science in genere forniscono un'immagine di macchina virtuale per garantire che gli studenti abbiano una configurazione coerente e che gli esempi abbiano un comportamento prevedibile.

La DSVM consente di creare un ambiente su richiesta con una configurazione coerente che semplifica i problemi relativi a incompatibilità e supporto. Esistono vantaggi sostanziali per i casi in cui tali ambienti devono essere compilati di frequente, in particolare per i corsi di formazione più brevi.

Quali funzionalità sono incluse nella DSVM?

Vedere un elenco completo di strumenti sulle DVSM di Windows e Linux qui.

Passaggi successivi

Per altre informazioni, vedere gli articoli seguenti: