共用方式為


資料科學虛擬機器上所支援的資料平台

透過資料科學虛擬機器 (DSVM),您可以憑藉各種不同的資料平台來建置分析資源。 除了遠端資料平台的介面之外,DSVM 也提供快速開發和原型設計的本機執行個體。

DSVM 支援這些資料平台工具:

SQL Server Developer Edition

類別
這是什麼? 本機關聯式資料庫執行個體
支援的 DSVM 版本 Windows 2019、Linux (SQL Server 2019)
一般用法
  • 使用較小的資料集快速進行本機開發
  • 執行資料庫內 R
範例的連結
  • 將紐約市資料集載入 SQL 資料庫的小型範例:
    nyctaxi
  • 在以下位置尋找顯示 Microsoft Machine Learning Server 和資料庫內分析的 Jupyter 範例:
    ~notebooks/SQL_R_Services_End_to_End_Tutorial.ipynb
DSVM 上的相關工具
  • SQL Server Management Studio
  • ODBC/JDBC 驅動程式
  • pyodbc、RODBC

注意

SQL Server Developer 版本只能用於開發和測試用途。 您需要授權或其中一個 SQL Server VM,才能在生產環境中執行。

注意

針對 Machine Learning Server 獨立式的支援已於 2021 年 7 月 1 日結束。 我們將於 6 月 30 日之後將其從 DSVM 映像中移除。 現有的部署將繼續擁有軟體的存取權,但由於已達到支援結束日期,因此在 2021 年 7 月 1 日之後已不支援。

注意

我們將會在 2021 年 11 月結束時,從 DSVM 映像中移除 SQL Server Developer 版本。 現有的部署將會繼續安裝 SQL Server Developer 版本。 在新的部署中,如果您想要存取 SQL Server Developer Edition,您可以透過 Docker 支援來安裝和使用 SQL Server Developer Edition。 如需詳細資訊,請參閱快速入門:使用 Docker 執行 SQL Server 容器映像

Windows

設定

資料庫伺服器經過預先設定,而且與 SQL Server 相關的 Windows 服務 (例如 SQL Server (MSSQLSERVER)) 是設定為自動執行。 唯一的手動步驟涉及透過使用 Microsoft Machine Learning Server 啟用資料庫內分析。 在 SQL Server Management Studio (SSMS) 中一次性地執行下列命令來啟用分析。 以機器管理員的身分登入後執行此命令,在 SSMS 中開啟新的查詢,並選取 master 資料庫:

CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS 

(以您的 VM 名稱取代 %COMPUTERNAME%。)

若要執行 SQL Server Management Studio,您可以在程式清單上搜尋「SQL Server Management Studio」,也可以使用 Windows 搜尋來尋找並加以執行。 提示輸入認證時,請選取 [Windows 驗證],並在 [SQL Server 名稱] 欄位中使用機器名稱或 localhost

如何使用和執行

根據預設,有預設資料庫執行個體的資料庫伺服器會自動執行。 您可以在 VM 上使用 SQL Server Management Studio 之類的工具在本機存取 SQL Server 資料庫。 本機管理員帳戶擁有資料庫的管理員存取權。

此外,DSVM 隨附 ODBC 和 JDBC 驅動程式,可與之通訊

  • SQL Server
  • Azure SQL 資料庫
  • 來自以多種語言撰寫之應用程式的 Azure Synapse Analytics 資源,包括 Python 和 Machine Learning Server。

如何在 DSVM 上設定和安裝?

SQL Server 是以標準方式安裝的。 您可以在 C:\Program Files\Microsoft SQL Server 找到它。 您可以在 C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES 找到資料庫內 Machine Learning Server 執行個體。 DSVM 也有個別的獨立 Machine Learning Server 執行個體,安裝於 C:\Program Files\Microsoft\R Server\R_SERVER。 這兩個 Machine Learning Server 執行個體不會共用程式庫。

Ubuntu

您必須先在 Ubuntu DSVM 上安裝 SQL Server Developer Edition,才能加以使用。 如需詳細資訊,請參閱快速入門:在 Ubuntu 上安裝 SQL Server 並建立資料庫

Apache Spark 2.x (獨立)

類別
這是什麼? 常用 Apache Spark 平台的獨立 (單一節點內含式) 執行個體,這是快速大規模資料處理和機器學習的系統
支援的 DSVM 版本 Linux
一般用法
  • 使用較小的資料集在本機快速開發 Spark/PySpark 應用程式,然後將其部署在 Azure HDInsight 之類的大型 Spark 叢集上
  • 測試 Microsoft Machine Learning Server Spark 內容
  • 使用 SparkML 或 Microsoft 的開放原始碼 MMLSpark 程式庫建置 ML 應用程式
範例的連結 Jupyter 範例:
  • ~/notebooks/SparkML/pySpark
  • ~/notebooks/MMLSpark

Microsoft Machine Learning Server (Spark 內容):/dsvm/samples/MRS/MRSSparkContextSample.R

DSVM 上的相關工具
  • PySpark、Scala
  • Jupyter (Spark/PySpark 核心)
  • Microsoft Machine Learning Server、SparkR、Sparklyr
  • Apache Drill

如何使用

您可以執行 spark-submitpyspark 命令,在命令列上提交 Spark 作業。 您也可以使用 Spark 核心建立新的 Notebook,以建立 Jupyter Notebook。

若要透過 R 來使用 Spark,您要使用 DSVM 中提供的程式庫,例如 SparkR、Sparklyr 和 Microsoft Machine Learning Server。 請參閱上表中範例的連結。

設定

在 Ubuntu Linux DSVM 版本上,於 Microsoft Machine Learning Server 的 Spark 內容中執行之前,您必須完成一次性設定步驟,以啟用本機單一節點 Hadoop HDFS 和 Yarn 執行個體。 根據預設,Hadoop 服務已安裝但是在 DSVM 上已停用。 若要將其啟用,請在第一次啟用時以根使用者身分執行下列命令:

echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn

若要在不再需要 Hadoop 相關服務時停止這類服務,請執行 systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn

示範如何在遠端 Spark 內容 (DSVM 上的獨立 Spark 執行個體) 中開發和測試 MRS 的範例,可在 /dsvm/samples/MRS 目錄中取得。

如何在 DSVM 上設定和安裝?

平台 安裝位置 ($SPARK_HOME)
Linux /dsvm/tools/spark-X.X.X-bin-hadoopX.X

從 Azure Blob 儲存體或 Azure Data Lake Storage 存取資料的程式庫 (使用 Microsoft 的 MMLSpark 機器學習程式庫) 已預先安裝於 $SPARK_HOME/jars。 Spark 啟動時,這些 JAR 會自動載入。 Spark 預設會使用位於本機磁碟的資料。

DSVM 上的 Spark 執行個體可以存取儲存在 Blob 儲存體或 Azure Data Lake Storage 中的資料。 您必須先根據在 $SPARK_HOME/conf/core-site.xml.template 中找到的範本,建立和設定 core-site.xml 檔案。 您也必須具有適當的認證,才能存取 Blob 儲存體及 Azure Data Lake Storage。 範本檔案會針對 Blob 儲存體和 Azure Data Lake Storage 設定使用預留位置。

如需有關如何建立 Azure Data Lake Storage 服務認證的詳細資訊,請參閱使用 Azure Data Lake Storage Gen1 進行驗證。 在 core-site.xml 檔案中輸入 Blob 儲存體或 Azure Data Lake Storage 的認證後,您可以透過 wasb:// 或 adl:// 的 URI 前置詞參照這些來源中儲存的資料。