次の方法で共有


Databricks Connect for Python に移行する

この記事では、Python で Databricks Runtime 12.2 LTS 以前用の Databricks Connect から Databricks Runtime 13.0 以降用の Databricks Connect に移行する方法について説明します。 Databricks Connect を使用すると、一般的な IDE、ノートブック サーバー、カスタム アプリケーションを Azure Databricks クラスターに接続できます。 「Databricks Connect とは」を参照してください。 この記事の Scala バージョンについては、「Databricks Connect for Scala に移行する」を参照してください。

Note

Databricks Connect の使用を開始する前に、Databricks Connect クライアントを設定する必要があります。

Databricks Runtime 12.2 LTS 以下用の Databricks Connect から Databricks Runtime 13.0 以降用の Databricks Connect に既存の Python コード プロジェクトまたはコーディング環境を移行するには、次のガイドラインに従ってください。

  1. ローカル環境に Python がまだインストールされていない場合は、Azure Databricks クラスターに適合するように、インストールの要件に記載されている正しいバージョンの Python をインストールします。

  2. 必要に応じて、クラスターに適合する正しいバージョンの Python を使用するように Python 仮想環境をアップグレードします。 手順については、仮想環境プロバイダーのドキュメントを参照してください。

  3. 仮想環境がアクティブな状態で、仮想環境から PySpark をアンインストールします。

    pip3 uninstall pyspark
    
  4. 仮想環境がアクティブな状態のままで、Databricks Runtime 12.2 LTS 以下用の Databricks Connect をアンインストールしてください。

    pip3 uninstall databricks-connect
    
  5. 仮想環境がアクティブな状態のままで、Databricks Runtime 13.0 以降用の Databricks Connect をインストールしてください。

    pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
    

    Note

    Databricks では、最新のパッケージがインストールされるように、databricks-connect=X.Y ではなく databricks-connect==X.Y.* を指定する "ドットとアスタリスク" の表記を追加することをお勧めします。 これは要件ではありませんが、そのクラスターでサポートされている最新の機能を使用できるようにするのに役立ちます。

  6. spark 変数 (PySpark での SparkSession と同様に、DatabricksSession クラスのインスタンス化を表す) を初期化するように Python コードを更新します。 コードの例については、「Databricks Connect for Python をインストールする」をご覧ください。

  7. DATAFrame API を使うように RDD API を移行し、代替手段を使うように SparkContext を移行します。

Hadoop 構成を設定する

クライアントでは、spark.conf.set API を使用して Hadoop 構成を設定できます。これは、SQL と DataFrame の操作に適用されます。 sparkContext に設定された Hadoop 構成は、クラスター構成に設定するか、ノートブックを使用する必要があります。 これは、sparkContext に設定された構成はユーザー セッションに関連付けられるのではなく、クラスター全体に適用されるからです。