為 Apache Spark 使用 Python

Microsoft Fabric 提供 Apache Spark 的內建 Python 支援。 支援包括 PySpark,可讓使用者使用熟悉的 Spark 或 Python 介面來與 Spark 互動。

您可透過 Spark 批次工作定義或使用互動式 Fabric 筆記本,來使用 Python 分析資料。 本文提供使用 Python 語言在 Synapse 中開發 Spark 應用程式的概觀。

建立並執行筆記本工作階段

Microsoft Fabric 筆記本是網頁介面,可讓您建立含有即時程式碼、視覺效果和敘述文字的檔案。 筆記本是驗證想法和使用快速實驗從您的資料取得見解的絕佳位置。 筆記本也廣泛用於資料準備、資料視覺效果、機器學習和其他巨量資料案例中。

若要在 Microsoft Fabric 筆記本中開始使用 Python,請將語言選項設定為 PySpark (Python),以在筆記本頂端變更主要語言

%%pyspark
# Enter your Python code here

您可以在儲存格的開頭指定語言 magic 命令,以便在同個筆記本中使用多種語言。

若要深入了解 Microsoft Fabric Analytics 內的筆記本,請參閱如何使用筆記本

安裝套件

程式庫提供您要包含在程式或專案中的可重複使用程式碼。 若要讓合作夥伴程式碼或本機建置的程式碼可供您的應用程式使用,請將程式庫內嵌安裝到您的筆記本工作階段。 或者,您的工作區管理員可以建立環境、在其中安裝程式庫,並將環境連結至工作區設定中的工作區預設值。

若要深入了解 Microsoft Fabric 中的程式庫管理,請參閱管理 Apache Spark 程式庫

筆記本公用程式

Microsoft Spark 公用程式 (MSSparkUtils) 是一個內建套件,可協助您輕鬆地執行一般工作。 您可以使用 MSSparkUtils 來處理文件系統、取得環境變數、將筆記本鏈結在一起,以及使用秘密。 PySpark 筆記本支援 MSSparkUtils。

若要開始使用,可執行下列命令:

from notebookutils import mssparkutils
mssparkutils.notebook.help()

若要深入了解受支援的 MSSparkUtils 命令,請參閱使用 Microsoft Spark 公用程式

在 Spark 上使用 Pandas

Spark 上的 Pandas API 可讓您將 Pandas 工作負載調整為任何大小,方法是將其分散到多個節點。 如果您已經熟悉 pandas 並想要將 Spark 用於巨量資料,Spark 上的 pandas API 可讓您立即提高生產力。

您可以移轉應用程式而無需修改程式碼。 您可以使用單一程式碼基底來搭配 pandas 使用,用於測試和較小的資料集,以及搭配 Spark 使用,用於生產與分散式資料集。 您可以在 Spark 上的 Pandas API 與 Pandas API 之間輕鬆切換,而且不需要額外負荷。

Python 執行階段

Microsoft Fabric 執行階段是專為資料科學和機器學習最佳化的策劃環境。 Microsoft Fabric 執行階段提供一系列熱門的 Python 開放原始碼程式庫,包括 Pandas、PyTorch、scikit-learn 和 XGBoost 等程式庫。

Python 視覺效果

Python 生態系統提供多個圖形程式庫,其中包含許多不同的特徵。 根據預設,Microsoft Fabric 中的每個 Spark 執行個體包含一組策展且熱門的開放原始碼程式庫。 您也可以新增或管理其他程式庫或版本。 如需程式庫管理的詳細資訊,請參閱程式庫管理最佳做法摘要

若要深入了解如何建立 Python 視覺效果,請參閱 Python 視覺效果