使用 R for Apache Spark
Microsoft Fabric 提供 Apache Spark 的內建 R 支援。 這包括對 SparkR and sparklyr 的支援,可讓使用者使用熟悉的 Spark 或 R 介面來與 Spark 互動。 您可透過 Spark 批次工作定義或使用互動式 Microsoft Fabric 筆記本,來使用 R 分析資料。
本文件提供使用 R 語言在 Synapse 中開發 Spark 應用程式的概觀。
取得 Microsoft Fabric 訂用帳戶。 或註冊免費的 Microsoft Fabric 試用版。
登入 Microsoft Fabric。
使用首頁左側的體驗切換器,切換至 Synapse 資料科學體驗。
Microsoft Fabric 筆記本是網頁介面,可讓您建立含有即時程式碼、視覺效果和敘述文字的檔案。 筆記本是驗證想法和使用快速實驗從您的資料取得見解的絕佳位置。 筆記本也廣泛用於資料準備、資料視覺效果、機器學習和其他巨量資料案例中。
若要在 Microsoft Fabric 筆記本中開始使用 R,請將語言選項設定為 SparkR (R),以在筆記本頂端變更主要語言。
此外,您可在資料格的開頭指定語言 magic 命令,以便在同個筆記本中使用多種語言。
%%sparkr
# Enter your R code here
若要深入了解 Microsoft Fabric Analytics 內的筆記本,請參閱如何使用筆記本。
程式庫提供您可能想要包含在程式或專案中的可重複使用程式碼。 若要讓您的應用程式可以使用協力廠商或本機建置的程式碼,您可以將程式庫安裝到其中一個工作區或筆記本工作階段。
若要深入了解如何管理 R 程式庫,請參閱 R 程式庫管理。
Microsoft Spark 公用程式 (MSSparkUtils) 是一個內建套件,可協助您輕鬆地執行一般工作。 您可以使用 MSSparkUtils 來處理檔案系統、取得環境變數、將筆記本鏈結在一起,以及使用祕密。 R 筆記本支援 MSSparkUtils。
若要開始使用,您可以執行下列命令:
library(notebookutils)
mssparkutils.fs.help()
若要深入了解受支援的 MSSparkUtils 命令,請參閱使用 Microsoft Spark 公用程式。
SparkR 是一種 R 套件,提供輕量型前端以使用 R 的 Apache Spark。SparkR 提供分散式資料架構實作,支援選取、篩選、彙總等作業。SparkR 還支援使用 MLlib 的分散式機器學習。
您可以瀏覽如何使用 SparkR,深入了解如何使用 SparkR。
sparklyr 是 Apache Spark 的 R 介面。 其採用熟悉的 R 介面,提供與 Spark 互動的機制。 您可透過 Spark 批次工作定義或使用互動式 Microsoft Fabric 筆記本,來使用 sparklyr。
若要深入了解如何使用 sparklyr,請瀏覽如何使用 sparklyr。
Tidyverse 是資料科學家在日常資料分析中常用的 R 套件集合。 其包含資料匯入的套件 (readr
)、資料視覺效果 (ggplot2
)、資料操作 (dplyr
、tidyr
)、功能性程式設計 (purrr
) 和模型建置 (tidymodels
) 等。tidyverse
中的套件旨在無縫地協同運作,並遵循一組一致的設計準則。 Microsoft Fabric 會以每個執行階段版本,來散發最新的 tidyverse
穩定版本。
若要深入了解如何使用 Tidyverse,請瀏覽如何使用 Tidyverse。
R 生態系統提供多個圖形程式庫,其中搭載許多不同的功能。 根據預設,Microsoft Fabric 中的每個 Spark 執行個體包含一組策展且熱門的開放原始碼程式庫。 您還可以使用 Microsoft Fabric 程式庫管理功能,來新增或管理額外的程式庫或版本。
瀏覽 R 視覺效果,以深入了解如何建立 R 視覺效果。