Microsoft Fabric 为 Apache Spark 提供了内置的 Python 支持。 支持包括 PySpark,它允许用户使用熟悉的 Spark 或 Python 接口与 Spark 交互。
可通过 Spark 批处理作业定义或交互 Fabric 笔记本使用 Python 来分析数据。 本文概述了如何使用 Python 语言在 Synapse 中开发 Spark 应用程序。
创建和运行笔记本会话
Microsoft Fabric 笔记本是一种 Web 界面,用于创建包含实时代码、可视化效果和叙述性文本的文件。 笔记本是验证想法并使用快速试验从数据中获取见解的好地方。 笔记本还广泛用于数据准备、数据可视化、机器学习和其他大数据方案。
要开始在 Microsoft Fabric 笔记本中使用 Python,请通过将语言选项设置为“PySpark (Python)”来更改笔记本顶部的主要“语言”。
%%pyspark
# Enter your Python code here
通过在单元格开始位置指定语言 magic 命令,可以在一个笔记本中使用多种语言。
要详细了解 Microsoft Fabric Analytics 中的笔记本,请参阅如何使用笔记本。
安装包
这些库提供了可重用的代码,你可以在程序或项目中包含这些代码。 若要使合作伙伴代码或本地生成的代码可供应用程序使用,请将库内联安装到笔记本会话中。 或者,工作区管理员可以创建环境、在其中安装库,并附加环境作为工作区设置中的工作区默认设置。
要详细了解 Microsoft Fabric 中的库管理,请参阅管理 Apache Spark 库。
笔记本实用工具
Microsoft Spark 实用工具 (MSSparkUtils) 是内置的包,可帮助你轻松执行常见任务。 可以使用 MSSparkUtils 来处理文件系统、获取环境变量、将笔记本链在一起以及处理机密。 Python 笔记本支持 MSSparkUtils。
若要开始操作,请运行以下命令:
from notebookutils import mssparkutils
mssparkutils.notebook.help()
有关支持的 MSSparkUtils 命令的详细信息,请参阅使用 Microsoft Spark 实用工具。
在 Spark 上使用 Pandas
借助 Spark 上的 Pandas API,可通过跨多个节点分布式运行 Pandas 工作负载,将其缩放到任何大小。 如果你已经熟悉 pandas 并想要将 Spark 用于大数据,Spark 上的 pandas API 可让你立即提高工作效率。
无需修改代码即可迁移应用程序。 你可以有一个代码库,既可以与 pandas 配合使用(用于测试和较小的数据集),也可以与 Spark 配合使用(用于生产和分布式数据集)。 你可以轻松地在 Spark 上的 pandas API 和 Pandas API 之间切换,无需任何开销。
Python 运行时
Microsoft Fabric 运行时是针对数据科学和机器学习进行了优化的策展环境。 Microsoft Fabric 运行时提供一系列常用的 Python 开放源代码库,包括 Pandas、PyTorch、Scikit-Learn、XGBoost 等。
Python 可视化效果
Python 生态系统提供了多个图形库,其中包含许多不同的功能。 默认情况下,Microsoft Fabric 中的每个 Spark 实例都包含一组精选和常用的开放源代码库。 还可以添加或管理其他库或版本。 有关库管理的详细信息,请参阅库管理最佳做法摘要。
若要详细了解如何创建 Python 可视化效果,请参阅 Python 可视化效果。
相关内容
- 了解如何使用 Apache Spark 上的 Pandas API:Apache Spark 上的 Pandas API
- 在 Microsoft Fabric 中管理 Apache Spark 库
- 若要在 Python 中可视化数据,请访问:在 Python 中可视化数据