在 Azure 中選擇數據分析和報告技術

大部分巨量數據解決方案的目標是透過分析和報告來提供數據的深入解析。 這可以包括預先設定的報表和視覺效果,或互動式數據探索。

選擇數據分析技術時,有哪些選項?

根據您的需求,在 Azure 中分析、視覺效果和報告有數個選項:

Power BI

Power BI 是一套商務分析工具。 它可以連線到數百個數據源,並可用於臨機操作分析。 請參閱 目前可用的數據來源清單 。 使用 Power BI Embedded 在您自己的應用程式中整合 Power BI,而不需要任何額外的授權。

組織可以使用Power BI來產生報表,並將其發佈至組織。 每個人都可以使用內建的治理和安全性來建立個人化儀錶板。 Power BI 會使用 Microsoft Entra 識別符來驗證登入 Power BI 服務 的使用者,並在用戶嘗試存取需要驗證的資源時使用 Power BI 登入認證。

Jupyter Notebook

Jupyter Notebook 提供瀏覽器型殼層,可讓數據科學家建立 包含 Python、Scala 或 R 程式代碼和 Markdown 文字的筆記本 檔案,使其成為共用和記錄程式代碼併產生單一檔中的有效共同作業方式。

大部分的 HDInsight 叢集,例如 Spark 或 Hadoop,都 已預先設定 Jupyter Notebook, 以便與數據互動,並提交作業進行處理。 根據您使用的 HDInsight 叢集類型,將提供一或多個核心來解譯和執行程式代碼。 例如,HDInsight 上的 Spark 叢集提供 Spark 相關核心,您可以使用 Spark 引擎選取來執行 Python 或 Scala 程式代碼。

Jupyter Notebook 提供絕佳的環境,讓您在使用 Power BI 等 BI/報告工具建置更進階的視覺效果之前,先分析、可視化及處理您的數據。

Zeppelin Notebooks

Zeppelin Notebooks 是瀏覽器型殼層的另一個選項,類似於功能中的 Jupyter。 某些 HDInsight 叢集已 預先設定 Zeppelin 筆記本。 不過,如果您使用 HDInsight 互動式查詢 (Hive LLAP) 叢集,Zeppelin 目前是您唯一可用來執行互動式 Hive 查詢的筆記本選擇。 此外,如果您使用已加入網域的 HDInsight 叢集,Zeppelin 筆記本是唯一可讓您指派不同使用者登入來控制筆記本和基礎 Hive 數據表存取權的類型。

VS Code 中的 Jupyter Notebook

VS Code 是免費的程式代碼編輯器和開發平臺,您可以在本機使用或連線到遠端計算。 結合 Jupyter 擴充功能,可提供完整的 Jupyter 開發環境,可透過其他語言延伸模組來增強。 如果您想要一個最佳類別的免費 Jupyter 體驗,並能夠運用您選擇的計算,這是一個很好的選項。 使用 VS Code,您可以針對遠端和容器開發及執行筆記本。 為了更輕鬆地從 Azure Notebooks 轉換,我們已讓容器映射可供使用,因此也可以與 VS Code 搭配使用。

Jupyter (先前稱為 IPython Notebook) 是一個開放原始碼專案,可讓您輕鬆地將 Markdown 文字和可執行的 Python 原始程式碼結合在稱為筆記本的畫布上。 Visual Studio Code 支援原生使用 Jupyter Notebook,以及透過 Python 程式代碼檔案。

索引鍵選取準則

若要縮小選擇範圍,請從回答下列問題開始:

  • 您需要連線到許多數據源,提供集中位置來建立整個網域中數據的報告嗎? 如果是,請選擇可讓您連線到 100 個數據源的選項。

  • 您要在外部網站或應用程式中內嵌動態視覺效果嗎? 如果是,請選擇提供內嵌功能的選項。

  • 您要在離線時設計視覺效果和報表嗎? 如果是,請選擇具有離線功能的選項。

  • 您需要大量的處理能力來定型大型或複雜的 AI 模型,或使用非常大的數據集嗎? 如果是,請選擇可連線到巨量數據叢集的選項。

功能矩陣

下表摘要說明功能的主要差異。

一般功能

功能 Power BI Jupyter Notebook Zeppelin Notebooks VS Code 中的 Jupyter Notebook
連線 巨量數據叢集以進行進階處理 Yes .是 .是 No
受控服務 1 1 Yes
連線 至100個數據源 No
離線功能 2 No
內嵌功能 No
自動數據重新整理 No
存取許多 開放原始碼 套件 No 3 3 4
數據轉換/清理選項 Power Query,R 40 種語言,包括 Python、R、Julia 和 Scala 20 個以上的解釋器,包括 Python、JDBC 和 R Python、F#、R
定價 免費取得 Power BI Desktop (撰寫),請參閱裝載選項的定價 免費 免費 免費
多使用者共同作業 是 (透過共用或與 JupyterHub 之類的多用戶伺服器) Yes 是(通過共用)

[1] 當做受控 HDInsight 叢集的一部分使用時。

[2] 使用 Power BI Desktop。

[2] 您可以搜尋 Maven 存放庫取得社群參與的套件。

[3] Python 套件可以使用 pip 或 conda 來安裝。 您可以從 CRAN 或 GitHub 安裝 R 套件。 F# 中的套件可以透過使用 Paket 相依性管理員 nuget.org 安裝。

參與者

本文由 Microsoft 維護。 原始投稿人如下。

主體作者:

下一步