Gegevensplatforms die worden ondersteund op de Datawetenschap virtuele machine

Artikel
09/01/2024

Met een Datawetenschap Virtual Machine (DSVM) kunt u uw analysebronnen bouwen op basis van een breed scala aan gegevensplatforms. Naast interfaces voor externe gegevensplatforms biedt de DSVM een lokaal exemplaar voor snelle ontwikkeling en prototypen.

De DSVM ondersteunt deze hulpprogramma's voor het gegevensplatform:

SQL Server Developer Edition

Categorie	Weergegeven als
Wat is het?	Een lokaal relationeel database-exemplaar
Ondersteunde DSVM-edities	Windows 2019, Linux (SQL Server 2019)
Typische toepassingen	Snelle lokale ontwikkeling, met een kleinere gegevensset In-database R uitvoeren
Koppelingen naar voorbeelden	Een klein voorbeeld van een New York City-gegevensset wordt geladen in de SQL-database: `nyctaxi` Zoek een Jupyter-voorbeeld met Microsoft Machine Learning Server en analyses in de database op: `~notebooks/SQL_R_Services_End_to_End_Tutorial.ipynb`
Verwante hulpprogramma's op de DSVM	SQL Server Management Studio ODBC-/JDBC-stuurprogramma's pyodbc, RODBC

Notitie

SQL Server Developer Edition kan alleen worden gebruikt voor ontwikkelings- en testdoeleinden. U hebt een licentie of een van de SQL Server-VM's nodig om deze in productie uit te voeren.

Notitie

Ondersteuning voor de zelfstandige machine learning-server is beëindigd op 1 juli 2021. We verwijderen deze na 30 juni uit de DSVM-installatiekopieën. Bestaande implementaties hebben nog steeds toegang tot de software, maar vanwege de einddatum van de ondersteuning is de ondersteuning beëindigd na 1 juli 2021.

Notitie

De SQL Server Developer Edition wordt eind november 2021 verwijderd uit DSVM-installatiekopieën. Bestaande implementaties blijven SQL Server Developer Edition installeren. Als u in nieuwe deployemnts toegang wilt hebben tot de SQL Server Developer Edition, kunt u de SQL Server Developer Edition installeren en gebruiken via Docker-ondersteuning. Ga naar quickstart: SQL Server-containerinstallatiekopieën uitvoeren met Docker voor meer informatie.

Windows

Instellingen

De databaseserver is al vooraf geconfigureerd en de Windows-services met betrekking tot SQL Server (bijvoorbeeld SQL Server (MSSQLSERVER)) worden automatisch uitgevoerd. De enige handmatige stap omvat het inschakelen van analyses in de database via het gebruik van Microsoft Machine Learning Server. Voer de volgende opdracht uit om analyses in te schakelen als eenmalige actie in SQL Server Management Studio (SSMS). Voer deze opdracht uit nadat u zich hebt aangemeld als computerbeheerder, open een nieuwe query in SSMS en selecteer de master database:

CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS

(Vervang %COMPUTERNAME% door uw VM-naam.)

Als u SQL Server Management Studio wilt uitvoeren, kunt u zoeken naar 'SQL Server Management Studio' in de programmalijst of Windows Search gebruiken om deze te zoeken en uit te voeren. Wanneer u om referenties wordt gevraagd, selecteert u Windows-verificatie en gebruikt u de computernaam of localhost in het veld SQL Server-naam.

Het gebruiken en uitvoeren

Standaard wordt de databaseserver met het standaarddatabase-exemplaar automatisch uitgevoerd. U kunt hulpprogramma's zoals SQL Server Management Studio op de VIRTUELE machine gebruiken om lokaal toegang te krijgen tot de SQL Server-database. Lokale beheerdersaccounts hebben beheerderstoegang voor de database.

Daarnaast wordt de DSVM geleverd met ODBC- en JDBC-stuurprogramma's om met elkaar te communiceren

SQL Server
Azure SQL-databases
Azure Synapse Analytics-resources van toepassingen die zijn geschreven in meerdere talen, waaronder Python en Machine Learning Server.

Hoe wordt deze geconfigureerd en geïnstalleerd op de DSVM?

SQL Server wordt op de standaard manier geïnstalleerd. Je kunt het vinden op C:\Program Files\Microsoft SQL Server. U vindt het in-database Machine Learning Server-exemplaar op C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES. De DSVM heeft ook een afzonderlijk zelfstandig Machine Learning Server-exemplaar, geïnstalleerd op C:\Program Files\Microsoft\R Server\R_SERVER. Deze twee Machine Learning Server-exemplaren delen geen bibliotheken.

Ubuntu

U moet eerst SQL Server Developer Edition installeren op een Ubuntu DSVM voordat u deze gebruikt. Ga naar quickstart: INSTALLEER SQL Server en maak een database op Ubuntu voor meer informatie.

Apache Spark 2.x (zelfstandig)

Categorie	Weergegeven als
Wat is het?	Een zelfstandig exemplaar (één knooppunt in proces) van het populaire Apache Spark-platform; een systeem voor snelle, grootschalige gegevensverwerking en machine learning
Ondersteunde DSVM-edities	Linux
Typische toepassingen	Snelle ontwikkeling van Spark-/PySpark-toepassingen lokaal met een kleinere gegevensset en latere implementatie op grote Spark-clusters zoals Azure HDInsight Microsoft Machine Learning Server Spark-context testen SparkML of de Microsoft opensource MMLSpark-bibliotheek gebruiken om ML-toepassingen te bouwen
Koppelingen naar voorbeelden	Jupyter-voorbeeld: ~/notebooks/SparkML/pySpark ~/notebooks/MMLSpark Microsoft Machine Learning Server (Spark-context): /dsvm/samples/MRS/MRSSparkContextSample.R
Verwante hulpprogramma's op de DSVM	PySpark, Scala Jupyter (Spark/PySpark-kernels) Microsoft Machine Learning Server, SparkR, Sparklyr Apache Drill

Het gebruik ervan

U kunt de spark-submit of pyspark opdracht uitvoeren om Spark-taken op de opdrachtregel in te dienen. U kunt ook een nieuw notebook maken met de Spark-kernel om een Jupyter-notebook te maken.

Als u Spark van R wilt gebruiken, gebruikt u bibliotheken zoals SparkR, Sparklyr en Microsoft Machine Learning Server, die beschikbaar zijn op de DSVM. Zie koppelingen naar voorbeelden in de voorgaande tabel.

Instellingen

Voordat u in een Spark-context in Microsoft Machine Learning Server op Ubuntu Linux DSVM-editie uitvoert, moet u een eenmalige installatiestap uitvoeren om een lokaal Hadoop HDFS- en Yarn-exemplaar met één knooppunt in te schakelen. Hadoop-services worden standaard geïnstalleerd, maar uitgeschakeld op de DSVM. Als u ze wilt inschakelen, voert u deze opdrachten als root uit:

echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn

Als u de hadoop-gerelateerde services wilt stoppen wanneer u ze niet meer nodig hebt, voert u de opdracht uit systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn.

Een voorbeeld dat laat zien hoe u MRS kunt ontwikkelen en testen in een externe Spark-context (het zelfstandige Spark-exemplaar op de DSVM) is opgegeven en beschikbaar is in de /dsvm/samples/MRS map.

Hoe wordt deze geconfigureerd en geïnstalleerd op de DSVM?

Platform	Installatielocatie ($SPARK_HOME)
Linux	/dsvm/tools/spark-X.X.X-bin-hadoopX.X

Bibliotheken voor toegang tot gegevens uit Azure Blob Storage of Azure Data Lake Storage, met behulp van de Machine Learning-bibliotheken van Microsoft MMLSpark, zijn vooraf geïnstalleerd in $SPARK_HOME/jars. Deze JAR's worden automatisch geladen wanneer Spark wordt gestart. Spark maakt standaard gebruik van gegevens op de lokale schijf.

Het Spark-exemplaar op de DSVM heeft toegang tot gegevens die zijn opgeslagen in Blob Storage of Azure Data Lake Storage. U moet het core-site.xml bestand eerst maken en configureren op basis van de sjabloon in $SPARK_HOME/conf/core-site.xml.template. U moet ook over de juiste referenties beschikken om toegang te krijgen tot Blob Storage en Azure Data Lake Storage. De sjabloonbestanden maken gebruik van tijdelijke aanduidingen voor Blob Storage- en Azure Data Lake Storage-configuraties.

Ga naar Verificatie met Azure Data Lake Storage Gen1 voor meer informatie over het maken van azure Data Lake Storage-servicereferenties. Nadat u de referenties voor Blob Storage of Azure Data Lake Storage in het core-site.xml-bestand hebt ingevoerd, kunt u verwijzen naar de gegevens die in deze bronnen zijn opgeslagen via het URI-voorvoegsel van wasb:// of adl://.

Delen via

Gegevensplatforms die worden ondersteund op de Datawetenschap virtuele machine

SQL Server Developer Edition

Windows

Instellingen

Het gebruiken en uitvoeren

Hoe wordt deze geconfigureerd en geïnstalleerd op de DSVM?

Ubuntu

Apache Spark 2.x (zelfstandig)

Het gebruik ervan

Instellingen

Hoe wordt deze geconfigureerd en geïnstalleerd op de DSVM?

Feedback

Aanvullende resources