遷移到適用於 Python 的 Databricks Connect

本文說明如何從 Databricks Connect for Databricks Runtime 12.2 LTS 及以下版本遷移到 Databricks Connect for Databricks Runtime 13.3 LTS 及以上版本(Python)。 Databricks Connect 讓您能將熱門的 IDE、筆記型電腦伺服器及自訂應用程式連接到 Azure Databricks 叢集。 請參閱 Databricks Connect

開始使用 Databricks Connect 之前,您必須先 設定 Databricks Connect 用戶端

如需本文的 Scala 版本,請參閱 遷移至適用於 Scala 的 Databricks Connect。

遷移你的 Python 專案

要將您的現有 Python 程式碼專案或程式環境從 Databricks Connect for Databricks Runtime 12.2 LTS 及以下版本遷移到 Databricks Connect for Databricks Runtime 13.3 LTS 及以上版本:

  1. 如果本地尚未安裝,請依照 installation requirements 列出的正確版本安裝 Python,以符合你的 Azure Databricks 叢集。

  2. 如果需要,升級你的 Python 虛擬環境,使用與叢集相符的正確版本 Python。 如需指示,請參閱虛擬環境提供者的檔。

  3. 啟用虛擬環境之後,請從虛擬環境卸載 PySpark:

    pip3 uninstall pyspark
    
  4. 在虛擬環境仍啟用后,卸載 Databricks Connect for Databricks Runtime 12.2 LTS 和以下版本:

    pip3 uninstall databricks-connect
    
  5. 在虛擬環境仍啟用之後,請安裝 Databricks Connect for Databricks Runtime 13.3 LTS 和更新版本:

    pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
    

    注意

    Databricks 建議您附加 「dot-asterisk」 表示法來指定 databricks-connect==X.Y.* ,而不是 databricks-connect=X.Y,以確保已安裝最新的套件。 雖然這不是必要條件,但它有助於確定您可以使用該叢集的最新支援功能。

  6. 更新你的 Python 程式碼,初始化 spark 變數(代表 DatabricksSession 類別的實例,類似 PySpark 中的 SparkSession)。 請參閱 Databricks Connect 的計算組態。

  7. 轉移 RDD API 以使用 DataFrame API,並將 SparkContext 遷移至使用替代方案。

設定Hadoop組態

在用戶端上,您可以使用適用於 SQL 和 DataFrame 作業的 spark.conf.set API 來設定 Hadoop 組態。 Hadoop 組態在 sparkContext 上的設定必須在叢集組態中設定或使用筆記本來設定。 這是因為上 sparkContext 設定的組態不會系結至用戶會話,但會套用至整個叢集。