Microsoft Fabric 为 Apache Spark 提供内置 R 支持。 它支持 SparkR 和 sparklyr,使你能够使用熟悉的 Spark 或 R 接口来处理 Spark。 通过 Spark 批处理作业定义或交互式Microsoft Fabric 笔记本使用 R 分析数据。
本文档概述了如何使用 R 在 Microsoft Fabric 中开发 Spark 应用程序。
先决条件
获取 Microsoft Fabric 订阅。 或者,注册免费的 Microsoft Fabric 试用版。
登录 Microsoft Fabric。
使用主页左下侧的体验切换器切换到 Fabric。
创建和运行笔记本会话
Microsoft Fabric 笔记本是一个 Web 界面,用于创建包含实时代码、可视化效果和叙述文本的文件。 使用笔记本验证想法、运行快速试验以及从数据获取见解。 使用笔记本进行数据准备、数据可视化、机器学习和其他大数据方案。
若要在 Microsoft Fabric 笔记本中开始使用 R,请将笔记本顶部的主要语言更改为 SparkR (R)。
此外,通过在单元格开头添加语言 magic 命令,在一个笔记本中使用多种语言。
%%sparkr
# Enter your R code here
若要详细了解 Microsoft Fabric Analytics 中的笔记本,请参阅 如何使用笔记本。
安装软件包
包提供添加到项目的可重用代码。 若要在项目中使用第三方或本地包,请在工作区或笔记本会话中安装它们。
在 R 库管理中了解详细信息。
笔记本实用工具
Microsoft Spark 实用工具(MSSparkUtils)是一个内置包,可帮助执行常见任务。 使用 MSSparkUtils 处理文件系统、获取环境变量、将笔记本链接在一起以及处理机密。 MSSparkUtils 支持 R 笔记本。
若要开始,请运行以下命令:
library(notebookutils)
mssparkutils.fs.help()
在 “使用 Microsoft Spark 实用工具”中了解详细信息。
使用 SparkR
SparkR 是一个 R 包,它提供一个轻型前端,用于使用 R 中的 Apache Spark。SparkR 提供了一个分布式数据帧实现,支持选择、筛选和聚合等作。 SparkR 还支持使用 MLlib 进行分布式机器学习。
详细了解 如何使用 SparkR。
使用 sparklyr
sparklyr 是 Apache Spark 的 R 接口。 使用熟悉的 R 接口与 Spark 交互。 在 Spark 批处理作业定义或交互式Microsoft Fabric 笔记本中使用 sparklyr。
详细了解 如何使用 sparklyr。
使用 Tidyverse
Tidyverse 是数据科学家用于日常数据分析的 R 包集合。 它包括用于数据导入()、数据可视化(readrggplot2)、数据作(dplyr、tidyr和功能编程)的包。purrr Tidyverse 包协同工作,并遵循一致的设计原则。 Microsoft Fabric 会在每个运行时版本中分发 tidyverse 的最新稳定版本。
详细了解 如何使用 Tidyverse。
R 可视化效果
R 生态系统包括许多图形库。 默认情况下,Microsoft Fabric 中的每个 Spark 实例都包含特选的开源库。 使用 Microsoft Fabric 库管理功能 添加或管理库和版本。
了解如何在 R 可视化效果中创建 R 可视化效果。