Platformy danych obsługiwane na maszynie wirtualnej Nauka o danych

Za pomocą maszyny wirtualnej Nauka o danych (DSVM) można tworzyć zasoby analityczne na wielu platformach danych. Oprócz interfejsów zdalnych platform danych maszyna DSVM udostępnia lokalne wystąpienie do szybkiego opracowywania i tworzenia prototypów.

Maszyna DSVM obsługuje następujące narzędzia platformy danych:

SQL Server Developer Edition

Kategoria Wartość
Co to jest? Lokalne wystąpienie relacyjnej bazy danych
Obsługiwane wersje maszyny DSVM Windows 2019, Linux (SQL Server 2019)
Typowe zastosowania
  • Szybkie programowanie lokalne z mniejszym zestawem danych
  • Uruchamianie w bazie danych R
Linki do przykładów
  • Mały przykład zestawu danych w Nowym Jorku jest ładowany do bazy danych SQL:
    nyctaxi
  • Znajdź przykład programu Jupyter przedstawiający usługę Microsoft Machine Edukacja Server i analizy w bazie danych na stronie:
    ~notebooks/SQL_R_Services_End_to_End_Tutorial.ipynb
Powiązane narzędzia na maszynie DSVM
  • SQL Server Management Studio
  • Sterowniki ODBC/JDBC
  • pyodbc, RODBC

Uwaga

Program SQL Server Developer Edition może być używany tylko do celów programistycznych i testowych. Aby można było uruchomić ją w środowisku produkcyjnym, potrzebujesz licencji lub jednej z maszyn wirtualnych programu SQL Server.

Uwaga

Wsparcie dla autonomicznej usługi Machine Edukacja Server zakończyło się 1 lipca 2021 r. Usuniemy go z obrazów maszyny DSVM po 30 czerwca. Istniejące wdrożenia będą nadal miały dostęp do oprogramowania, ale ze względu na datę zakończenia wsparcia technicznego wsparcie dla niego zakończy się po 1 lipca 2021 r.

Uwaga

Do końca listopada 2021 r. usuniemy program SQL Server Developer Edition z obrazów DSVM. Istniejące wdrożenia będą nadal zainstalowane w programie SQL Server Developer Edition. W nowych wdrożeniach, jeśli chcesz mieć dostęp do programu SQL Server Developer Edition, możesz zainstalować i użyć programu SQL Server Developer Edition za pośrednictwem obsługi platformy Docker. Odwiedź stronę Szybki start: uruchamianie obrazów kontenerów programu SQL Server za pomocą platformy Docker , aby uzyskać więcej informacji.

Windows

Ustawienia

Serwer bazy danych jest już wstępnie skonfigurowany, a usługi systemu Windows związane z programem SQL Server (na przykład SQL Server (MSSQLSERVER)) są ustawione do automatycznego uruchamiania. Jedynym ręcznym krokiem jest włączenie analizy w bazie danych przy użyciu programu Microsoft Machine Edukacja Server. Uruchom następujące polecenie, aby włączyć analizę jako jednorazową akcję w programie SQL Server Management Studio (SSMS). Uruchom to polecenie po zalogowaniu się jako administrator maszyny, otwórz nowe zapytanie w programie SSMS i wybierz master bazę danych:

CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS 

(Zastąp ciąg %COMPUTERNAME% nazwą maszyny wirtualnej).

Aby uruchomić program SQL Server Management Studio, możesz wyszukać ciąg "SQL Server Management Studio" na liście programów lub użyć usługi Windows Search, aby go znaleźć i uruchomić. Po wyświetleniu monitu o poświadczenia wybierz pozycję Uwierzytelnianie systemu Windows i użyj nazwy komputera lub localhost w polu Nazwa serwera SQL.

Jak go używać i uruchamiać

Domyślnie serwer bazy danych z domyślnym wystąpieniem bazy danych jest uruchamiany automatycznie. Aby uzyskać dostęp do bazy danych programu SQL Server lokalnie, możesz użyć narzędzi takich jak SQL Server Management Studio na maszynie wirtualnej. Konta administratorów lokalnych mają dostęp administratora do bazy danych.

Ponadto maszyna DSVM jest dostarczana z sterownikami ODBC i JDBC, aby porozmawiać z

  • SQL Server
  • Bazy danych Azure SQL Database
  • Zasoby usługi Azure Synapse Analytics z aplikacji napisanych w wielu językach, w tym Python i Machine Edukacja Server.

Jak jest on skonfigurowany i zainstalowany na maszynie DSVM?

Program SQL Server jest instalowany w standardowy sposób. Możesz go znaleźć na stronie C:\Program Files\Microsoft SQL Server. Wystąpienie maszyny Edukacja Server w bazie danych można znaleźć pod adresem C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES. Maszyna DSVM ma również oddzielne autonomiczne wystąpienie maszyny Edukacja Server zainstalowane na stronie C:\Program Files\Microsoft\R Server\R_SERVER. Te dwa wystąpienia usługi Machine Edukacja Server nie współużytkują bibliotek.

Ubuntu

Przed jego użyciem należy najpierw zainstalować program SQL Server Developer Edition na maszynie DSVM z systemem Ubuntu. Odwiedź stronę Szybki start: instalowanie programu SQL Server i tworzenie bazy danych w systemie Ubuntu , aby uzyskać więcej informacji.

Apache Spark 2.x (autonomiczny)

Kategoria Wartość
Co to jest? Autonomiczne (jednowęźle w procesie) wystąpienie popularnej platformy Apache Spark; system do szybkiego przetwarzania danych na dużą skalę i uczenia maszynowego
Obsługiwane wersje maszyny DSVM Linux
Typowe zastosowania
  • Szybkie opracowywanie aplikacji Spark/PySpark lokalnie przy użyciu mniejszego zestawu danych i późniejszego wdrożenia w dużych klastrach Spark, takich jak usługa Azure HDInsight
  • Testowanie kontekstu platformy Spark dla maszyny Edukacja microsoft machine
  • Tworzenie aplikacji ML przy użyciu języka SparkML lub biblioteki MMLSpark firmy Microsoft typu open source
Linki do przykładów Przykład jupyter:
  • ~/notebooks/SparkML/pySpark
  • ~/notebooks/MMLSpark

Microsoft Machine Edukacja Server (kontekst Spark): /dsvm/samples/MRSSparkContextSample.R

Powiązane narzędzia na maszynie DSVM
  • PySpark, Scala
  • Jupyter (Jądra Spark/PySpark)
  • Microsoft Machine Edukacja Server, SparkR, Sparklyr
  • Apache Drill

Korzystanie

Możesz uruchomić polecenie lubpyspark, spark-submit aby przesłać zadania platformy Spark w wierszu polecenia. Możesz również utworzyć nowy notes za pomocą jądra platformy Spark, aby utworzyć notes Jupyter.

Aby używać platformy Spark z języka R, należy używać bibliotek, takich jak SparkR, Sparklyr i Microsoft Machine Edukacja Server, które są dostępne na maszynie DSVM. Zobacz linki do przykładów w poprzedniej tabeli.

Ustawienia

Przed uruchomieniem w kontekście platformy Spark w programie Microsoft Machine Edukacja Server w systemie Ubuntu Linux DSVM należy wykonać jednorazowy krok konfiguracji, aby włączyć lokalny pojedynczy węzeł Hadoop HDFS i wystąpienie usługi Yarn. Domyślnie usługi Hadoop są instalowane, ale wyłączone na maszynie DSVM. Aby je włączyć, uruchom następujące polecenia jako katalog główny po raz pierwszy:

echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn

Aby zatrzymać usługi związane z platformą Hadoop, gdy nie są już potrzebne, uruchom polecenie systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn.

Przykład przedstawiający sposób tworzenia i testowania usługi MRS w zdalnym kontekście platformy Spark (autonomiczne wystąpienie platformy Spark na maszynie /dsvm/samples/MRS DSVM) jest udostępniany i dostępny w katalogu.

Jak jest on skonfigurowany i zainstalowany na maszynie DSVM?

Platforma Lokalizacja instalacji ($SPARK_HOME)
Linux /dsvm/tools/spark-X.X.X-bin-hadoopX.X

Biblioteki do uzyskiwania dostępu do danych z usługi Azure Blob Storage lub Azure Data Lake Storage przy użyciu bibliotek uczenia maszynowego microsoft MMLSpark są wstępnie zainstalowane w $SPARK_HOME/jars. Te pliki JAR są ładowane automatycznie po uruchomieniu platformy Spark. Domyślnie platforma Spark używa danych znajdujących się na dysku lokalnym.

Wystąpienie platformy Spark na maszynie DSVM może uzyskiwać dostęp do danych przechowywanych w usłudze Blob Storage lub Azure Data Lake Storage. Najpierw należy utworzyć i skonfigurować core-site.xml plik na podstawie szablonu znajdującego się w pliku $SPARK_HOME/conf/core-site.xml.template. Aby uzyskać dostęp do usługi Blob Storage i Azure Data Lake Storage, musisz również mieć odpowiednie poświadczenia. Pliki szablonów używają symboli zastępczych dla konfiguracji usługi Blob Storage i Azure Data Lake Storage.

Aby uzyskać więcej informacji na temat tworzenia poświadczeń usługi Azure Data Lake Storage, odwiedź stronę Authentication with Azure Data Lake Storage Gen1 (Uwierzytelnianie za pomocą usługi Azure Data Lake Storage Gen1). Po wprowadzeniu poświadczeń dla usługi Blob Storage lub Azure Data Lake Storage w pliku core-site.xml można odwoływać się do danych przechowywanych w tych źródłach za pomocą prefiksu identyfikatora URI wasb:// lub adl://.