使用 R 处理 Apache Spark

Microsoft Fabric 为 Apache Spark 提供内置 R 支持。 它支持 SparkRsparklyr,使你能够使用熟悉的 Spark 或 R 接口来处理 Spark。 通过 Spark 批处理作业定义或交互式Microsoft Fabric 笔记本使用 R 分析数据。

本文档概述了如何使用 R 在 Microsoft Fabric 中开发 Spark 应用程序。

先决条件

创建和运行笔记本会话

Microsoft Fabric 笔记本是一个 Web 界面,用于创建包含实时代码、可视化效果和叙述文本的文件。 使用笔记本验证想法、运行快速试验以及从数据获取见解。 使用笔记本进行数据准备、数据可视化、机器学习和其他大数据方案。

若要在 Microsoft Fabric 笔记本中开始使用 R,请将笔记本顶部的主要语言更改为 SparkR (R)。

此外,通过在单元格开头添加语言 magic 命令,在一个笔记本中使用多种语言。

%%sparkr
# Enter your R code here

若要详细了解 Microsoft Fabric Analytics 中的笔记本,请参阅 如何使用笔记本

安装软件包

包提供添加到项目的可重用代码。 若要在项目中使用第三方或本地包,请在工作区或笔记本会话中安装它们。

R 库管理中了解详细信息。

笔记本实用工具

Microsoft Spark 实用工具(MSSparkUtils)是一个内置包,可帮助执行常见任务。 使用 MSSparkUtils 处理文件系统、获取环境变量、将笔记本链接在一起以及处理机密。 MSSparkUtils 支持 R 笔记本。

若要开始,请运行以下命令:

library(notebookutils)
mssparkutils.fs.help()

“使用 Microsoft Spark 实用工具”中了解详细信息。

使用 SparkR

SparkR 是一个 R 包,它提供一个轻型前端,用于使用 R 中的 Apache Spark。SparkR 提供了一个分布式数据帧实现,支持选择、筛选和聚合等作。 SparkR 还支持使用 MLlib 进行分布式机器学习。

详细了解 如何使用 SparkR

使用 sparklyr

sparklyr 是 Apache Spark 的 R 接口。 使用熟悉的 R 接口与 Spark 交互。 在 Spark 批处理作业定义或交互式Microsoft Fabric 笔记本中使用 sparklyr。

详细了解 如何使用 sparklyr

使用 Tidyverse

Tidyverse 是数据科学家用于日常数据分析的 R 包集合。 它包括用于数据导入()、数据可视化(readrggplot2)、数据作(dplyrtidyr和功能编程)的包。purrr Tidyverse 包协同工作,并遵循一致的设计原则。 Microsoft Fabric 会在每个运行时版本中分发 tidyverse 的最新稳定版本。

详细了解 如何使用 Tidyverse

R 可视化效果

R 生态系统包括许多图形库。 默认情况下,Microsoft Fabric 中的每个 Spark 实例都包含特选的开源库。 使用 Microsoft Fabric 库管理功能 添加或管理库和版本。

了解如何在 R 可视化效果中创建 R 可视化效果