你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

在 Azure 中选择数据分析和报告技术

大多数大数据解决方案的目的是通过分析和报告提供对数据的见解。 这可以包括预配置的报表和可视化效果或交互式数据探索。

选择数据分析技术时有哪些选项?

Azure 中有多个用于分析、可视化和报告的选项,具体取决于你的需求:

Power BI

Power BI 是一个业务分析工具套件。 它可以连接到数百个数据源,并且可以用于临时分析。 请参阅此列表中列出的当前可用的数据源。 使用 Power BI Embedded 将 Power BI 集成到自己的应用程序中,不需要任何额外的授权。

组织可以使用 Power BI 生成报表并将其发布到组织。 每个人都可以创建具有治理机制和内置安全性的个性化仪表板。 每当用户尝试访问需要进行身份验证的资源时,Power BI 都使用 Microsoft Entra ID 对登录 Power BI 服务的用户进行身份验证,并使用 Power BI 登录凭据。

Jupyter Notebook

Jupyter Notebook 提供了一个基于浏览器的 shell,它允许数据科学家创建包含 Python、Scala 或 R 代码和标记文本的 Notebook 文件,这使得它成为通过在单个文档中共享和记录代码及结果来进行协作的有效方式。

HDInsight 群集的大多数变体(例如 Spark 或 Hadoop)都预先配置了 Jupyter Notebook,用于与数据进行交互以及提交作业进行处理。 根据你使用的 HDInsight 群集的类型,将提供一个或多个用于解释和运行你的代码的内核。 例如,HDInsight 上的 Spark 群集提供了与 Spark 相关的内核,你可以从中进行选择以使用 Spark 引擎执行 Python 或 Scala 代码。

Jupyter Notebook 提供了一个很棒的环境,在使用 Power BI 之类的商业智能/报告工具构建更高级的可视化效果之前,可以在该环境中对数据进行分析、可视化和处理。

Zeppelin Notebook

Zeppelin Notebook 是适用于基于浏览器的 shell 的另一个选项,其功能类似于 Jupyter。 某些 HDInsight 群集预先配置了 Zeppelin Notebook。 但是,如果使用 HDInsight 交互式查询 (Hive LLAP) 群集,则 Zeppelin 是当前唯一可以用来运行交互式 Hive 查询的 notebook。 另外,如果使用已加入域的 HDInsight 群集,若要分配不同的用户登录名来控制对 Notebook 和基础 Hive 表的访问,则 Zeppelin Notebook 是唯一可实现此目标的类型。

VS Code 中的 Jupyter Notebook

VS Code 是可在本地使用或连接到远程计算的免费代码编辑器和开发平台。 它与 Jupyter 扩展结合使用,可为使用附加语言扩展得到增强的 Jupyter 开发提供完整环境。 如果想要获取一流的免费 Jupyter Notebook 体验并能够使用选择的计算,则这是一个很好的选择。 可以使用 VS Code 针对远程库和容器开发和运行笔记本。 为了更轻松地从 Azure Notebooks 转换,我们提供了容器映像,以便也可以用于 VS Code。

Jupyter(以前称为 IPython Notebook)是一个开源项目,通过它,可以轻松地在名为“笔记本”的单张画布上组合使用 Markdown 文本和可执行的 Python 源代码。 Visual Studio Code 支持原生使用 Jupyter Notebooks,并通过 Python 代码文件运行。

关键选择条件

若要缩小选择范围,请先回答以下问题:

  • 是否需要连接到许多数据源,提供一个集中的位置来为分布在整个域中的数据创建报表? 如果是,请选择一个允许连接到数百个数据源的选项。

  • 是否要在外部网站或应用程序中嵌入动态可视化效果? 如果是,请选择一个提供了嵌入功能的选项。

  • 是否要在脱机状态下设计可视化效果和报表? 如果是,请选择一个具有脱机功能的选项。

  • 是否需要强大的处理能力来训练大型或复杂人工智能模型或使用非常大的数据集? 如果是,请选择一个可以连接到大数据群集的选项。

功能矩阵

以下各表汇总了功能上的关键差异。

常规功能

功能 Power BI Jupyter Notebook Zeppelin Notebook VS Code 中的 Jupyter Notebook
连接到大数据群集以进行高级处理
托管服务 1 1
连接到数百个数据源 No
脱机功能 2 No
嵌入功能 No
自动化数据刷新 No
对大量开源包的访问权限 3 3 4
数据转换/清理选项 Power Query、R 40 种语言,包括 Python、R、Julia 和 Scala 20 多个解释器,包括 Python、JDBC 和 R Python、F#、R
定价 对于 Power BI Desktop(创作)免费,请参阅各个托管选项的定价 免费 免费 免费
多用户协作 是(通过进行共享或使用诸如 JupyterHub 的多用户服务器) 是(通过进行共享)

[1] 当用作托管 HDInsight 群集的一部分时。

[2] 通过使用 Power BI Desktop。

[2] 可以在 Maven 存储库中搜索由社区贡献的包。

[3] 可以使用 pip 或 Conda 安装 Python 包。 可以从 CRAN 或 GitHub 安装 R 包。 可以使用 Paket 依存关系管理器通过 nuget.org 安装 F# 中的包。

作者

本文由 Microsoft 维护, 它最初是由以下贡献者撰写的。

主要作者:

后续步骤