管理工作階段範圍的套件

除了集區層級封裝,您也可以在筆記本工作階段開始時,指定工作階段範圍的程式庫。 工作階段範圍的程式庫可讓您在筆記本工作階段內指定和使用自訂 Python 環境或 jar 套件。

使用工作階段範圍的程式庫時,請務必記住下列幾點:

  • 當您安裝工作階段範圍的程式庫時,只有目前的筆記本可以存取指定的程式庫。
  • 這些程式庫不影響其他使用相同 Spark 集區的工作階段或作業。
  • 這些程式庫安裝在基礎執行階段和集區層級程式庫之上。
  • 筆記本程式庫有最高優先順序。

工作階段範圍的 Python 套件

若要指定工作階段範圍的 Python 套件:

  1. 瀏覽至選取的 Spark 集區,並確定您已啟用工作階段層級的程式庫。 您可以瀏覽至 [管理] > [Apache Spark 集區] > [封裝] 索引標籤,以啟用此設定。啟用工作階段套件的螢幕擷取畫面。
  2. 一旦套用此設定,您就可以開啟筆記本,並選取 [設定工作階段] > [封裝]。 指定工作階段套件的螢幕擷取畫面。上傳 Yml 檔案的螢幕擷取畫面。
  3. 這時,您可以上傳 Conda environment.yml 檔案,以在工作階段內安裝或升級封裝。 一旦啟動工作階段,就會安裝指定的程式庫。 一旦工作階段結束,由於這些程式庫為工作階段專用,所以無法再使用。

確認已安裝的程式庫

若要確認已從 PyPI 安裝正確版本的正確程式庫,請執行下列程式碼:

import pkg_resources
for d in pkg_resources.working_set:
     print(d)

在某些情況下,若要從 Conda 檢視封裝版本,您可能需要個別檢查封裝版本。

工作階段範圍的 Java 或 Scala 套件

若要指定工作階段範圍的 Java 或 Scala 套件,您可以使用 %%configure 選項:

%%configure -f
{
    "conf": {
        "spark.jars": "abfss://<<file system>>@<<storage account>.dfs.core.windows.net/<<path to JAR file>>",
    }
}

建議您在筆記本開頭執行 %%configure。 您可以參考這份文件,以取得有效參數的完整清單。

下一步