遷移至適用於 Python 的 Databricks Connect

2025-03-29

本文說明如何從 Databricks Runtime 12.2 LTS 和以下的 Databricks Connect 移轉至適用於 Python 的 Databricks Runtime 13.3 LTS 和更新版本 Databricks Connect。 Databricks Connect 可讓您將熱門的 IDE、Notebook 伺服器和自定義應用程式連線到 Azure Databricks 叢集。請參閱什麼是 Databricks Connect？。如需本文的 Scala 版本，請參閱遷移至適用於 Scala 的 Databricks Connect。

注意

開始使用 Databricks Connect 之前，您必須先設定 Databricks Connect 用戶端。

請遵循這些指導方針，將現有的 Python 程式代碼專案或程式代碼環境從 Databricks Connect for Databricks Runtime 12.2 LTS 和以下版本移轉至 Databricks Connect for Databricks Runtime 13.3 LTS 和更新版本。

如果尚未在本機安裝 Python，請安裝正確的 Python 版本，如安裝需求中所列，以符合您的 Azure Databricks 叢集。
視需要升級您的 Python 虛擬環境，以使用正確的 Python 版本來符合您的叢集。如需指示，請參閱虛擬環境提供者的檔。
啟用虛擬環境之後，請從虛擬環境卸載 PySpark：
```
pip3 uninstall pyspark
```
在虛擬環境仍啟用后，卸載 Databricks Connect for Databricks Runtime 12.2 LTS 和以下版本：
```
pip3 uninstall databricks-connect
```
在虛擬環境仍啟用之後，請安裝 Databricks Connect for Databricks Runtime 13.3 LTS 和更新版本：
```
pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
```
注意

Databricks 建議您附加「dot-asterisk」表示法來指定 databricks-connect==X.Y.* ，而不是 databricks-connect=X.Y，以確保已安裝最新的套件。雖然這不是必要條件，但它有助於確定您可以使用該叢集的最新支援功能。
更新 Python 程式代碼以初始化 spark 變數（這代表類別的 DatabricksSession 具現化，類似於 SparkSession PySpark 中）。請參閱 Databricks Connect 的計算組態。
轉移 RDD API 以使用 DataFrame API，並將 SparkContext 遷移至使用替代方案。

設定Hadoop組態

在用戶端上，您可以使用適用於 SQL 和 DataFrame 作業的 spark.conf.set API 來設定 Hadoop 組態。 Hadoop 組態在 sparkContext 上的設定必須在叢集組態中設定或使用筆記本來設定。這是因為上 sparkContext 設定的組態不會系結至用戶會話，但會套用至整個叢集。

共用方式為

遷移至適用於 Python 的 Databricks Connect

設定Hadoop組態

意見反應

其他資源