從套件存放庫安裝程式庫
Azure Databricks 提供從 PyPI、Maven 和 CRAN 套件存放庫安裝程式庫的工具。 如需完整的程式庫相容性詳細資料,請參閱叢集範圍程式庫。
重要
使用 Databricks Runtime 14.3 LTS 及更舊版本時,可從 DBFS 安裝程式庫。 不過,任何工作區使用者都可以修改儲存在 DBFS 的程式庫檔案。 若要提高 Azure Databricks 工作區程式庫的安全性,在 Databricks Runtime 15.1 和更新版本預設會取代及停用 DBFS 根目錄中的程式庫檔案。 請參閱在 DBFS 根目錄儲存程式庫已被取代,並預設為停用。
相反地,Databricks 建議將所有程式庫,包括 Python 程式庫、JAR 檔案及 Spark 連接器上傳至工作區檔案或 Unity 目錄磁碟區,或使用程式庫套件存放庫。 如果您的工作負載不支援這些模式,您也可以使用儲存在雲端物件記憶體的程式庫。
PyPI 套件
在 [程式庫來源] 按鈕清單中,選取 [PyPI]。
輸入 PyPI 套件名稱。 若要安裝特定版本的程式庫,請為程式庫使用此格式:
<library>==<version>
。 例如:scikit-learn==0.19.1
。注意
針對工作,Databricks 建議您指定程式庫版本,以確保可重現的環境。 如果未完整指定程式庫版本,Databricks 會使用最新的比對版本。 這表示相同工作的不同執行可能會隨著新版本的發行而使用不同的程式庫版本。 指定程式庫版本可防止程式庫新的中斷性變更中斷工作。
(選擇性) 在 [索引 URL] 欄位中,輸入 PyPI 索引 URL。
按一下 [安裝]。
Maven 或 Spark 套件
重要
若要在以共用存取模式設定的計算上安裝 Maven 程式庫,您必須將座標新增至允許清單。 請參閱共用計算上的 Allowlist 程式庫和 init 指令碼。
重要
對於 DBR 14.3 LTS 和以下版本,Databricks 會使用 Apache Ivy 2.4.0 解析 Maven 套件。 對於 DBR 15.0 和更新版本,Databricks 會使用 Ivy 2.5.1 或更新版本,而特定的 Ivy 版本會列在 Databricks Runtime 版本資訊的和相容性中。
Maven 套件的安裝順序可能會影響最終相依樹狀結構,由此可能會影響載入程式庫的順序。
在 [程式庫來源] 按鈕清單中,選取 [Maven]。
指定 Maven 座標。 執行下列其中一項動作:
- 在 [座標] 欄位中,輸入要安裝的程式庫 Maven 座標。 Maven 座標的格式為
groupId:artifactId:version
;例如com.databricks:spark-avro_2.10:1.0.0
。 - 如果您不知道確切的座標,請輸入程式庫名稱,然後按下 [搜尋套件]。 相符套件的清單隨即顯示。 若要顯示套件的詳細資料,請按下其名稱。 您可依名稱、組織和評等來排序套件。 您也可在搜尋列中撰寫查詢來篩選結果。 結果會自動重新整理。
- 在左上方的下拉式清單中選取 [Maven Central] 或 [Spark 套件]。
- 選擇性地選取 [發行] 資料行中的套件版本。
- 按下套件旁的 [+ 選取]。 [坐標] 欄位會填入選取的套件版本。
- 在 [座標] 欄位中,輸入要安裝的程式庫 Maven 座標。 Maven 座標的格式為
(選擇性) 在 [存放庫] 欄位中,您可輸入 Maven 存放庫 URL。
注意
不支援內部 Maven 存放庫。
在 [排除] 欄位中,選擇性地提供您想要排除的相依性的
groupId
和artifactId
(例如log4j:log4j
)。注意
Maven 的運作方式是使用最接近根的版本,而且在兩個套件爭奪具有不同相依性的版本時,順序很重要,因此在先載入具有較舊相依性的套件時可能會失敗。
若要解決此問題,請排除衝突的程式庫。 例如,使用座標
com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.22
安裝套件時,將 [排除] 欄位設定為com.nimbusds:oauth2-oidc-sdk:RELEASE
,以便從 MSAL4J 載入eventhubs
的最新版本,並且滿足eventhubs
相依性。按一下 [安裝]。
CRAN 套件
- 在 [程式庫來源] 按鈕清單中,選取 [CRAN]。
- 在 [套件] 欄位中,輸入套件的名稱。
- (選擇性) 在 [存放庫] 欄位中,您可輸入 CRAN 存放庫 URL。
- 按一下 [安裝]。
注意
CRAN 鏡像提供最新版的程式庫。 因此,如果您在不同的時間將程式庫連結至不同的叢集,則最後可能會有不同的 R 套件版本。 若要了解如何管理及修正 Databricks 上的 R 套件版本,請參閱知識庫。