Creare una Data Science Virtual Machine

Completato

Attivare la sandbox di Learn

Usare il pulsante Accedi per attivare la sandbox in questo modulo per attivare la sandbox di Learn. In seguito all'attivazione viene creato un gruppo di risorse di Azure, un contenitore per le risorse correlate a un singolo dominio del progetto. Il gruppo di risorse rimane disponibile per un'ora. Usarlo per creare una Data Science Virtual Machine, eseguire la connessione alla stessa ed eseguire i programmi.

Creare una Data Science Virtual Machine

Dopo aver deciso di usare una Data Science Virtual Machine (DSVM) di Azure per esplorare il dominio, è necessario stabilire se si preferisce utilizzare Windows Server 2019 o Ubuntu Server 20.04 LTS come sistema operativo. È anche necessario pianificare l'hardware e le risorse di rete necessarie per la DSVM.

Sistemi operativi supportati

Sono disponibili due immagini della DSVM:

  • Windows Server 2019
  • Ubuntu Server 20.04 LTS

Entrambe le immagini contengono diversi strumenti per data science e Deep Learning. I programmatori Python possono usare Visual Studio Code o PyCharm per programmare PyTorch, TensorFlow e ONNX. Gli utenti R possono utilizzare CRAN-R. Gli utenti di C#, TypeScript e F# possono usare Visual Studio Code. Nell'immagine di Windows, possono usare Visual Studio per programmare ML.NET e SQL Server per l'archiviazione e il recupero dei dati.

Jupyter viene installato in entrambi i computer con kernel multilingue Nell'immagine Ubuntu, viene installato JupyterHub per consentire l'accesso multiutente.

Processori, RAM e dischi

Le macchine virtuali di Azure sono disponibili in varie dimensioni, raggruppate per tipo:

Type Caratteristiche
Utilizzo generico Rapporto equilibrato tra CPU e memoria.
GPU Una o più GPU. Ideale per il training e l'inferenza di Machine Learning con tecniche statistiche.
Ottimizzato per la memoria Rapporto elevato tra memoria e CPU. Valido per l'analisi in memoria.
Con ottimizzazione per l'archiviazione Velocità effettiva di I/O e disco elevata. Ideale per Big Data.
HPC (High Performance Computing) Computer con CPU potenti. Ideale per strumenti senza supporto GPU.
Con ottimizzazione per il calcolo Rapporto elevato tra CPU e memoria. Probabilmente non è la soluzione adatta per operazioni di data science. Preferire "GPU" o "High Performance Computing".

Per sfruttare i vantaggi offerti dall'elaborazione GPU disponibile, le DSVM sono preconfigurate con i driver, le versioni delle librerie e le configurazioni.

I computer di un determinato tipo sono in genere associati a una serie basata su lettere. Ad esempio, le dimensioni della GPU iniziano in genere con "N": NC6, NC12s v3, NC24, NV12 e così via.

Prima di creare una DSVM, è necessario scegliere una strategia di archiviazione. È possibile scegliere di installare il sistema operativo in un'unità SSD Premium, SDD Standard o HDD Standard. Inoltre, è possibile scegliere di creare o collegarsi a uno o più dischi dati. Anche in questo caso, è possibile selezionare la tecnologia del disco rigido, raggiungendo un compromesso tra la velocità superiore delle unità SSD e il costo delle stesse per gigabyte.

È possibile ridimensionare la DSVM con il variare dei requisiti. Ad esempio, è possibile scegliere una dimensione per utilizzo generico o con ottimizzazione per la memoria quando l'acquisizione e il riconoscimento dei dati sono l'obiettivo principale. Quando invece la modellazione diventa il collo di bottiglia, è possibile ridimensionare passando a un'offerta GPU.