教學課程:搭配使用 RevoScaleR R 函式與 SQL Server 資料
適用於: SQL Server 2016 (13.x) 和更新版本
在這個多部分的教學課程系列中,會為您介紹與資料科學相關聯工作的一些 RevoScaleR 函式。 在此程序中,您將會了解如何建立遠端計算內容、在本機與遠端計算內容之間移動資料,以及在遠端 SQL Server 上執行 R 程式碼。 您也會了解如何在本機與遠端伺服器上分析及繪製資料,以及如何建立及部署模型。
RevoScaleR 是 Microsoft R 套件,可提供資料科學和機器學習工作負載的分散式和平行處理。 針對 SQL Server 中的 R 開發,RevoScaleR 是其中一個核心內建套件,包含用來建立資料來源物件、設定計算內容、管理套件的功能,以及最重要的功能:從匯入到視覺效果和分析,端對端使用資料。 SQL Server 中的機器學習演算法相依於 RevoScaleR 資料來源。 基於 RevoScaleR 的重要性,知道何時以及如何呼叫其函式是必要的技能。
必要條件
使用 R 功能的 SQL Server Machine Learning 服務,或 SQL Server R 服務 (資料庫內)
資料庫權限 和 SQL Server 資料庫使用者登入
IDE,例如 RStudio 或 R 包含內建 RGUI.EXE 工具
若要在本機與遠端計算內容之間來回切換,您需要兩個系統。 本機通常是具有足夠資料科學工作負載能力的開發工作站。 在此情況下,遠端會是已啟用 R 功能的 SQL Server。
切換計算內容的前提是在本機和遠端系統上具有相同版本的 RevoScaleR。 在本機工作站上,您可以藉由安裝 Microsoft R Client 來取得 RevoScaleR 套件和相關提供者。
如果您需要將用戶端和伺服器放在同一部電腦上,請務必安裝第二組 Microsoft R 程式庫,以便從「遠端」用戶端傳送 R 指令碼。 請勿使用在 SQL Server 執行個體的程式檔案中安裝的 R 程式庫。 尤其是,如果您使用一台電腦,則在這兩個位置都需要 RevoScaleR 程式庫,以便支援用戶端和伺服器作業。
- C:\Program Files\Microsoft\R Client\R_SERVER\library\RevoScaleR
- C:\Program Files\Microsoft SQL Server\MSSQL14.MSSQLSERVER\R_SERVICES\library\RevoScaleR
如需用戶端設定的指示,請參閱設定 R 開發的資料科學用戶端。
R 開發工具
R 開發人員通常會使用 IDE 來撰寫 R 程式碼以及進行偵錯。 以下是一些建議:
Visual Studio R 工具 (RTVS) 是免費的外掛程式,可提供 Intellisense、偵錯及支援 Microsoft R。您可以將其用於 SQL Server 機器學習服務。 若要下載,請參閱 適用於 Visual Studio 的 R 工具。
RStudio 是其中一個比較常見的 R 開發環境。 如需詳細資訊,請參閱https://www.rstudio.com/products/RStudio/。
當您在 SQL Server 或 R 用戶端中安裝 R 時,預設也會安裝基本 R 工具 (R.exe、RTerm.exe、RScripts.exe)。 如果您不想要安裝 IDE,可以使用內建的 R 工具來執行本教學課程中的程式碼。
回想一下,本機和遠端電腦上都需要 RevoScaleR。 您無法使用 RStudio 的一般安裝或遺漏 Microsoft R 程式庫的其他環境來完成本教學課程。 如需詳細資訊,請參閱 Set Up a Data Science Client(設定資料科學用戶端)。
工作摘要
- 資料最初是從 CSV 檔案或 XDF 檔案取得。 您使用 RevoScaleR 套件中的函數,將資料匯入 SQL Server。
- 模型訓練與評分將會使用 SQL Server 計算內容來執行。
- 使用 RevoScaleR 函數來建立新的 SQL Server 資料表,以儲存評分結果。
- 在伺服器與本機計算內容中建立繪圖。
- 在 SQL Server 執行個體中執行 R,以在 SQL Server 資料庫的資料上訓練模型。
- 擷取資料子集,並將它儲存為 XDF 檔案,以便在本機工作站上重複用於分析。
- 藉由開啟與 SQL Server 資料庫的 ODBC 連線,來取得要評分的新資料。 評分是在本機工作站上完成。
- 建立自訂 R 函式,並且在伺服器計算內容中執行,以執行模擬。