資料科學虛擬機器上所支援的資料平台
透過資料科學虛擬機器 (DSVM),您可以憑藉各種不同的資料平台來建置分析資源。 除了遠端資料平台的介面之外,DSVM 也提供快速開發和原型設計的本機執行個體。
DSVM 支援這些資料平台工具:
SQL Server Developer Edition
類別 | 值 |
---|---|
這是什麼? | 本機關聯式資料庫執行個體 |
支援的 DSVM 版本 | Windows 2019、Linux (SQL Server 2019) |
一般用法 |
|
範例的連結 |
|
DSVM 上的相關工具 |
|
注意
SQL Server Developer 版本只能用於開發和測試用途。 您需要授權或其中一個 SQL Server VM,才能在生產環境中執行。
注意
針對 Machine Learning Server 獨立式的支援已於 2021 年 7 月 1 日結束。 我們將於 6 月 30 日之後將其從 DSVM 映像中移除。 現有的部署將繼續擁有軟體的存取權,但由於已達到支援結束日期,因此在 2021 年 7 月 1 日之後已不支援。
注意
我們將會在 2021 年 11 月結束時,從 DSVM 映像中移除 SQL Server Developer 版本。 現有的部署將會繼續安裝 SQL Server Developer 版本。 在新的部署中,如果您想要存取 SQL Server Developer Edition,您可以透過 Docker 支援來安裝和使用 SQL Server Developer Edition。 如需詳細資訊,請參閱快速入門:使用 Docker 執行 SQL Server 容器映像。
Windows
設定
資料庫伺服器經過預先設定,而且與 SQL Server 相關的 Windows 服務 (例如 SQL Server (MSSQLSERVER)
) 是設定為自動執行。 唯一的手動步驟涉及透過使用 Microsoft Machine Learning Server 啟用資料庫內分析。 在 SQL Server Management Studio (SSMS) 中一次性地執行下列命令來啟用分析。 以機器管理員的身分登入後執行此命令,在 SSMS 中開啟新的查詢,並選取 master
資料庫:
CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS
(以您的 VM 名稱取代 %COMPUTERNAME%。)
若要執行 SQL Server Management Studio,您可以在程式清單上搜尋「SQL Server Management Studio」,也可以使用 Windows 搜尋來尋找並加以執行。 提示輸入認證時,請選取 [Windows 驗證],並在 [SQL Server 名稱] 欄位中使用機器名稱或 localhost
。
如何使用和執行
根據預設,有預設資料庫執行個體的資料庫伺服器會自動執行。 您可以在 VM 上使用 SQL Server Management Studio 之類的工具在本機存取 SQL Server 資料庫。 本機管理員帳戶擁有資料庫的管理員存取權。
此外,DSVM 隨附 ODBC 和 JDBC 驅動程式,可與之通訊
- SQL Server
- Azure SQL 資料庫
- 來自以多種語言撰寫之應用程式的 Azure Synapse Analytics 資源,包括 Python 和 Machine Learning Server。
如何在 DSVM 上設定和安裝?
SQL Server 是以標準方式安裝的。 您可以在 C:\Program Files\Microsoft SQL Server
找到它。 您可以在 C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES
找到資料庫內 Machine Learning Server 執行個體。 DSVM 也有個別的獨立 Machine Learning Server 執行個體,安裝於 C:\Program Files\Microsoft\R Server\R_SERVER
。 這兩個 Machine Learning Server 執行個體不會共用程式庫。
Ubuntu
您必須先在 Ubuntu DSVM 上安裝 SQL Server Developer Edition,才能加以使用。 如需詳細資訊,請參閱快速入門:在 Ubuntu 上安裝 SQL Server 並建立資料庫。
Apache Spark 2.x (獨立)
類別 | 值 |
---|---|
這是什麼? | 常用 Apache Spark 平台的獨立 (單一節點內含式) 執行個體,這是快速大規模資料處理和機器學習的系統 |
支援的 DSVM 版本 | Linux |
一般用法 |
|
範例的連結 | Jupyter 範例:
Microsoft Machine Learning Server (Spark 內容):/dsvm/samples/MRS/MRSSparkContextSample.R |
DSVM 上的相關工具 |
|
如何使用
您可以執行 spark-submit
或 pyspark
命令,在命令列上提交 Spark 作業。 您也可以使用 Spark 核心建立新的 Notebook,以建立 Jupyter Notebook。
若要透過 R 來使用 Spark,您要使用 DSVM 中提供的程式庫,例如 SparkR、Sparklyr 和 Microsoft Machine Learning Server。 請參閱上表中範例的連結。
設定
在 Ubuntu Linux DSVM 版本上,於 Microsoft Machine Learning Server 的 Spark 內容中執行之前,您必須完成一次性設定步驟,以啟用本機單一節點 Hadoop HDFS 和 Yarn 執行個體。 根據預設,Hadoop 服務已安裝但是在 DSVM 上已停用。 若要將其啟用,請在第一次啟用時以根使用者身分執行下列命令:
echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn
若要在不再需要 Hadoop 相關服務時停止這類服務,請執行 systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn
。
示範如何在遠端 Spark 內容 (DSVM 上的獨立 Spark 執行個體) 中開發和測試 MRS 的範例,可在 /dsvm/samples/MRS
目錄中取得。
如何在 DSVM 上設定和安裝?
平台 | 安裝位置 ($SPARK_HOME) |
---|---|
Linux | /dsvm/tools/spark-X.X.X-bin-hadoopX.X |
從 Azure Blob 儲存體或 Azure Data Lake Storage 存取資料的程式庫 (使用 Microsoft 的 MMLSpark 機器學習程式庫) 已預先安裝於 $SPARK_HOME/jars。 Spark 啟動時,這些 JAR 會自動載入。 Spark 預設會使用位於本機磁碟的資料。
DSVM 上的 Spark 執行個體可以存取儲存在 Blob 儲存體或 Azure Data Lake Storage 中的資料。 您必須先根據在 $SPARK_HOME/conf/core-site.xml.template 中找到的範本,建立和設定 core-site.xml
檔案。 您也必須具有適當的認證,才能存取 Blob 儲存體及 Azure Data Lake Storage。 範本檔案會針對 Blob 儲存體和 Azure Data Lake Storage 設定使用預留位置。
如需有關如何建立 Azure Data Lake Storage 服務認證的詳細資訊,請參閱使用 Azure Data Lake Storage Gen1 進行驗證。 在 core-site.xml 檔案中輸入 Blob 儲存體或 Azure Data Lake Storage 的認證後,您可以透過 wasb:// 或 adl:// 的 URI 前置詞參照這些來源中儲存的資料。