Migrálás a Pythonhoz készült Databricks Connectbe

Cikk
07/16/2024

Ez a cikk bemutatja, hogyan migrálható a Databricks Connect for Databricks Runtime 12.2 LTS-ről az alábbi Databricks Connect for Databricks Runtime 13.3 LTS-hez és újabb Pythonhoz. A Databricks Connect lehetővé teszi népszerű azonosítók, notebook-kiszolgálók és egyéni alkalmazások Azure Databricks-fürtökhöz való csatlakoztatását. Lásd : Mi az a Databricks Connect?. A cikk Scala-verziójával kapcsolatban lásd : Migrálás a Databricks Connect for Scalához.

Feljegyzés

A Databricks Connect használatának megkezdése előtt be kell állítania a Databricks Connect-ügyfelet.

Az alábbi útmutatást követve migrálhatja meglévő Python-kódprojektjét vagy kódolási környezetét a Databricks Connect for Databricks Runtime 12.2 LTS-ből a Databricks Connect for Databricks Runtime 13.3 LTS-hez és újabb verziókhoz.

Telepítse a Python megfelelő verzióját a telepítési követelményekben felsorolt módon az Azure Databricks-fürtnek megfelelően, ha még nincs helyileg telepítve.
Frissítse a Python virtuális környezetet úgy, hogy szükség esetén a Python megfelelő verzióját használja a fürthöz. Útmutatásért tekintse meg a virtuális környezet szolgáltatójának dokumentációját.
A virtuális környezet aktiválásával távolítsa el a PySparkot a virtuális környezetből:
```
pip3 uninstall pyspark
```
Ha a virtuális környezet továbbra is aktiválva van, távolítsa el a Databricks Connect for Databricks Runtime 12.2 LTS-t és az alábbiakat:
```
pip3 uninstall databricks-connect
```
Ha a virtuális környezet továbbra is aktiválva van, telepítse a Databricks Connect for Databricks Runtime 13.3 LTS és újabb verzióját:
```
pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
```
Feljegyzés

A Databricks azt javasolja, hogy a "pont-csillag" jelölést ahelyett adja meg databricks-connect==X.Y.* databricks-connect=X.Y, hogy a legújabb csomag telepítve legyen. Bár ez nem követelmény, segít meggyőződni arról, hogy a fürt legújabb támogatott funkcióit is használhatja.
Frissítse a Python-kódot a spark változó inicializálásához (amely az osztály példányosítását jelenti, hasonlóan a DatabricksSession PySparkhoz SparkSession ). Példakódok : A Databricks Connect telepítése Pythonhoz.
Migrálja az RDD API-kat a DataFrame API-k használatára, és migrálja az alternatív SparkContext megoldások használatára.

Hadoop-konfigurációk beállítása

Az ügyfélen a Hadoop-konfigurációkat az spark.conf.set API használatával állíthatja be, amely az SQL- és DataFrame-műveletekre vonatkozik. A hadoop-konfigurációkat a sparkContext fürtkonfigurációban vagy egy jegyzetfüzetben kell beállítani. Ennek az az oka, hogy a beállított sparkContext konfigurációk nem kapcsolódnak a felhasználói munkamenetekhez, hanem a teljes fürtre vonatkoznak.

Megosztás a következőn keresztül:

Migrálás a Pythonhoz készült Databricks Connectbe

Hadoop-konfigurációk beállítása

Visszajelzés

További források