この記事では、Databricks Connect for Databricks Runtime 12.2 LTS 以降から Databricks Runtime 13.3 LTS 以降に移行して、Pythonする方法について説明します。 Databricks Connect を使用すると、一般的な IDE、ノートブック サーバー、カスタム アプリケーションをAzure Databricks クラスターに接続できます。 「Databricks Connect」を参照してください。
Databricks Connect の使用を開始する前に、Databricks Connect クライアントを設定必要があります。
この記事の Scala バージョンについては、「Databricks Connect for Scala に移行する」を参照してください。
Python プロジェクトを移行する
既存のPythonコード プロジェクトまたはコーディング環境を Databricks Connect for Databricks Runtime 12.2 LTS 以降から Databricks Runtime 13.3 LTS 以降に移行するには:
Azure Databricks クラスターがローカルにまだインストールされていない場合は、インストール要件に記載されている正しいバージョンのPythonをインストールします。
必要に応じて、Python仮想環境をアップグレードして、クラスターに合わせて適切なバージョンのPythonを使用します。 手順については、仮想環境プロバイダーのドキュメントを参照してください。
仮想環境がアクティブな状態で、仮想環境から PySpark をアンインストールします。
pip3 uninstall pyspark仮想環境がアクティブな状態のままで、Databricks Runtime 12.2 LTS 以下用の Databricks Connect をアンインストールしてください。
pip3 uninstall databricks-connect仮想環境がアクティブな状態のままで、Databricks Runtime 13.3 LTS 以降用の Databricks Connect をインストールしてください。
pip3 install --upgrade "databricks-connect==14.0.*" # Or X.Y.* to match your cluster version.注
Databricks では、最新のパッケージがインストールされるように、
databricks-connect==X.Y.*ではなくdatabricks-connect=X.Yを指定する "ドットとアスタリスク" の表記を追加することをお勧めします。 これは要件ではありませんが、そのクラスターでサポートされている最新の機能を使用できるようにするのに役立ちます。Python コードを更新して、
spark変数を初期化します (PySpark のDatabricksSessionと同様に、SparkSessionクラスのインスタンス化を表します)。 Databricks Connect の Compute 構成を参照してください。DATAFrame API を使うように RDD API を移行し、代替手段を使うように
SparkContextを移行します。
Hadoop 構成を設定する
クライアントでは、spark.conf.set API を使用して Hadoop 構成を設定できます。これは、SQL と DataFrame の操作に適用されます。
sparkContext に設定された Hadoop 構成は、クラスター構成に設定するか、ノートブックを使用する必要があります。 これは、sparkContext に設定された構成はユーザー セッションに関連付けられるのではなく、クラスター全体に適用されるからです。