Condividi tramite


Piattaforme dati supportate nella Data Science Virtual Machine

Con una data science virtual machine (DSVM), è possibile creare risorse di analisi su un'ampia gamma di piattaforme dati. Oltre alle interfacce di piattaforme di dati remote, la macchina virtuale per data science offre un'istanza locale per il rapido sviluppo e la creazione di prototipi.

La DSVM supporta questi strumenti della piattaforma dati:

SQL Server Developer Edition

Categoria Valore
Che cos'è? Un'istanza locale del database relazionale
Edizioni supportate della DSVM Windows 2019, Linux (SQL Server 2019)
Usi tipici
  • Sviluppo locale rapido, con un set di dati più piccolo
  • Eseguire R In-database
Collegamenti agli esempi
  • Un piccolo esempio di set di dati di New York City viene caricato nel database SQL:
    nyctaxi
  • Trovare un esempio di Jupyter che mostra Microsoft Machine Learning Server e analisi nel database all'indirizzo:
    ~notebooks/SQL_R_Services_End_to_End_Tutorial.ipynb
Strumenti correlati nella DSVM
  • SQL Server Management Studio
  • Driver ODBC/JDBC
  • pyodbc, RODBC

Nota

È possibile usare SQL Server Developer Edition solo a scopo di sviluppo e test. È necessaria una licenza oppure si deve eseguire una delle macchine virtuali di SQL Server nell'ambiente di produzione.

Nota

Il supporto per la versione autonoma di Machine Learning Server è terminato il 1° luglio 2021. Lo rimuoveremo dalle immagini DSVM dopo il 30 giugno. Le distribuzioni esistenti continueranno ad avere accesso al software, ma a causa della data di fine del supporto raggiunto, il supporto è terminato dopo il 1° luglio 2021.

Nota

SQL Server Developer Edition verrà rimosso dalle immagini della DSVM entro la fine di novembre 2021. Le distribuzioni esistenti continueranno a essere installate in SQL Server Developer Edition. In nuovi deployemnts, se si vuole avere accesso a SQL Server Developer Edition, è possibile installare e usare SQL Server Developer Edition tramite il supporto docker. Per altre informazioni, vedere Avvio rapido: Eseguire immagini del contenitore di SQL Server con Docker .

Windows

Attrezzaggio

Il server di database è già preconfigurato e i servizi Windows correlati a SQL Server (ad esempio, SQL Server (MSSQLSERVER)) vengono impostati per l'esecuzione automatica. L'unico passaggio manuale prevede l'abilitazione dell'analisi nel database tramite l'uso di Microsoft Machine Learning Server. Eseguire il comando seguente per abilitare l'analisi come azione una tantum in SQL Server Management Studio (SSMS). Eseguire questo comando dopo aver eseguito l'accesso come amministratore del computer, aprire una nuova query in SSMS e selezionare il master database:

CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS 

(sostituire %COMPUTERNAME% con il nome della VM).

Per eseguire SQL Server Management Studio, è possibile cercare "SQL Server Management Studio" nell'elenco dei programmi, oppure usare Windows Search per trovarlo ed eseguirlo. Quando vengono richieste le credenziali, selezionare Autenticazione di Windows e usare il nome del computer o localhost nel campo Nome SQL Server.

Utilizzo ed esecuzione

Per impostazione predefinita, il server di database con l'istanza del database predefinito viene eseguito automaticamente. È possibile usare strumenti quali SQL Server Management Studio nella macchina virtuale per accedere al database SQL Server in locale. L'account degli amministratori locali dispone di accesso come amministratore al database.

Inoltre, la DSVM include driver ODBC e JDBC per comunicare con

  • SQL Server
  • Database SQL di Azure
  • Risorse di Azure Synapse Analytics provenienti da applicazioni scritte in più linguaggi, tra cui Python e Machine Learning Server.

Come viene configurato e installato in DSVM?

SQL Server è installato nella modalità standard. È possibile trovarlo all'indirizzo C:\Program Files\Microsoft SQL Server. È possibile trovare l'istanza di Machine Learning Server nel database all'indirizzo C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES. La DSVM dispone anche di un'istanza autonoma di Machine Learning Server separata, installata in C:\Program Files\Microsoft\R Server\R_SERVER. Queste due istanze di Machine Learning Server non condividono le librerie.

Ubuntu

Prima di usarlo, è necessario installare SQL Server Developer Edition in una DSVM Ubuntu. Per altre informazioni, vedere Avvio rapido: Installare SQL Server e creare un database in Ubuntu .

Apache Spark 2.x (autonomo)

Categoria Valore
Che cos'è? Un'istanza autonoma, ovvero un nodo singolo in-process, della nota piattaforma Apache Spark, un sistema per la rapida elaborazione di dati su larga scala e il processo di machine learning
Edizioni supportate della DSVM Linux
Usi tipici
  • Sviluppo rapido di applicazioni Spark/PySpark in locale con un set di dati più piccolo e successiva distribuzione in cluster Spark di grandi dimensioni, ad esempio Azure HDInsight
  • Testare il contesto Spark di Microsoft Machine Learning Server
  • Usare SparkML o la libreria MMLSpark open source Microsoft per compilare applicazioni ml
Collegamenti agli esempi Esempio Jupyter:
  • ~/notebooks/SparkML/pySpark
  • ~/notebooks/MMLSpark

Microsoft Machine Learning Server (contesto Spark): /dsvm/samples/MRS/MRSSparkContextSample.R

Strumenti correlati nella DSVM
  • PySpark, Scala
  • Jupyter (Spark/PySpark Kernels)
  • Microsoft Machine Learning Server, SparkR, Sparklyr
  • Apache Drill

Modalità d'uso

È possibile eseguire il spark-submit comando o pyspark per inviare processi Spark nella riga di comando. È anche possibile creare un nuovo notebook con il kernel Spark per creare un notebook jupyter.

Per usare Spark da R, si usano librerie come SparkR, Sparklyr e Microsoft Machine Learning Server, disponibili nella DSVM. Vedere i collegamenti agli esempi nella tabella precedente.

Attrezzaggio

Prima di eseguire in un contesto Spark in Microsoft Machine Learning Server in Ubuntu Linux DSVM Edition, è necessario completare un passaggio di configurazione monouso per abilitare un'istanza hadoop HDFS e Yarn a nodo singolo locale. Per impostazione predefinita, i servizi Hadoop sono installati ma disabilitati su DSVM. Per abilitarli, eseguire questi comandi come radice la prima volta:

echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn

Per arrestare i servizi correlati a Hadoop quando non sono più necessari, eseguire systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn.

Un esempio che illustra come sviluppare e testare MRS in un contesto Spark remoto (l'istanza di Spark autonoma nella DSVM) viene fornita e disponibile nella /dsvm/samples/MRS directory.

Come viene configurato e installato in DSVM?

Piattaforma Percorso di installazione ($SPARK_HOME)
Linux /dsvm/tools/spark-X.X.X-bin-hadoopX.X

Le librerie di accesso ai dati di Blob di Azure o da Azure Data Lake Storage tramite l'uso delle librerie Microsoft Machine Learning MMLSpark sono preinstallate in $SPARK_HOME/JAR. Questi FILE JAR vengono caricati automaticamente all'avvio di Spark. Per impostazione predefinita, Spark usa i dati che si trovano sul disco locale.

L'istanza di Spark nella DSVM può accedere ai dati archiviati nell'archivio BLOB o in Azure Data Lake Archiviazione. È prima necessario creare e configurare il core-site.xml file, in base al modello trovato in $SPARK_HOME/conf/core-site.xml.template. È anche necessario disporre delle credenziali appropriate per accedere all'archiviazione Blob e ad Azure Data Lake Storage. I file modello usano segnaposto per l'archiviazione BLOB e le configurazioni di Azure Data Lake Archiviazione.

Per altre informazioni sulla creazione di credenziali del servizio Azure Data Lake Archiviazione, vedere Autenticazione con Azure Data Lake Archiviazione Gen1. Dopo aver immesso le credenziali per l'archiviazione BLOB o azure Data Lake Archiviazione nel file core-site.xml, è possibile fare riferimento ai dati archiviati in tali origini tramite il prefisso URI di wasb:// o adl://.