共用方式為


遷移至適用於 Python 的 Databricks Connect

本文說明如何從 Databricks Runtime 12.2 LTS 和以下的 Databricks Connect 移轉至適用於 Python 的 Databricks Runtime 13.3 LTS 和更新版本 Databricks Connect。 Databricks Connect 可讓您將熱門的 IDE、Notebook 伺服器和自定義應用程式連線到 Azure Databricks 叢集。 請參閱 什麼是 Databricks Connect?。 如需本文的 Scala 版本,請參閱 遷移至適用於 Scala 的 Databricks Connect。

注意

開始使用 Databricks Connect 之前,您必須先 設定 Databricks Connect 用戶端

請遵循這些指導方針,將現有的 Python 程式代碼專案或程式代碼環境從 Databricks Connect for Databricks Runtime 12.2 LTS 和以下版本移轉至 Databricks Connect for Databricks Runtime 13.3 LTS 和更新版本。

  1. 如果尚未在本機安裝 Python,請安裝正確的 Python 版本,如安裝需求所列,以符合您的 Azure Databricks 叢集。

  2. 視需要升級您的 Python 虛擬環境,以使用正確的 Python 版本來符合您的叢集。 如需指示,請參閱虛擬環境提供者的檔。

  3. 啟用虛擬環境之後,請從虛擬環境卸載 PySpark:

    pip3 uninstall pyspark
    
  4. 在虛擬環境仍啟用后,卸載 Databricks Connect for Databricks Runtime 12.2 LTS 和以下版本:

    pip3 uninstall databricks-connect
    
  5. 在虛擬環境仍啟用之後,請安裝 Databricks Connect for Databricks Runtime 13.3 LTS 和更新版本:

    pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
    

    注意

    Databricks 建議您附加 「dot-asterisk」 表示法來指定 databricks-connect==X.Y.* ,而不是 databricks-connect=X.Y,以確保已安裝最新的套件。 雖然這不是必要條件,但它有助於確定您可以使用該叢集的最新支援功能。

  6. 更新 Python 程式代碼以初始化 spark 變數(這代表 類別的 DatabricksSession 具現化,類似於 SparkSession PySpark 中)。 如需程式代碼範例,請參閱 安裝適用於 Python 的 Databricks Connect。

  7. 移轉 RDD API 以使用 DataFrame API,並遷移 SparkContext 至使用替代方案。

設定Hadoop組態

在用戶端上,您可以使用適用於 SQL 和 DataFrame 作業的 spark.conf.set API 來設定 Hadoop 組態。 上設定的 sparkContext Hadoop組態必須在叢集組態或使用筆記本中設定。 這是因為上 sparkContext 設定的組態不會系結至用戶會話,但會套用至整個叢集。