Migrálás a Pythonhoz készült Databricks Connectbe
Ez a cikk bemutatja, hogyan migrálható a Databricks Connect for Databricks Runtime 12.2 LTS-ről az alábbi Databricks Connect for Databricks Runtime 13.3 LTS-hez és újabb Pythonhoz. A Databricks Connect lehetővé teszi népszerű azonosítók, notebook-kiszolgálók és egyéni alkalmazások Azure Databricks-fürtökhöz való csatlakoztatását. Lásd : Mi az a Databricks Connect?. A cikk Scala-verziójával kapcsolatban lásd : Migrálás a Databricks Connect for Scalához.
Feljegyzés
A Databricks Connect használatának megkezdése előtt be kell állítania a Databricks Connect-ügyfelet.
Az alábbi útmutatást követve migrálhatja meglévő Python-kódprojektjét vagy kódolási környezetét a Databricks Connect for Databricks Runtime 12.2 LTS-ből a Databricks Connect for Databricks Runtime 13.3 LTS-hez és újabb verziókhoz.
Telepítse a Python megfelelő verzióját a telepítési követelményekben felsorolt módon az Azure Databricks-fürtnek megfelelően, ha még nincs helyileg telepítve.
Frissítse a Python virtuális környezetet úgy, hogy szükség esetén a Python megfelelő verzióját használja a fürthöz. Útmutatásért tekintse meg a virtuális környezet szolgáltatójának dokumentációját.
A virtuális környezet aktiválásával távolítsa el a PySparkot a virtuális környezetből:
pip3 uninstall pyspark
Ha a virtuális környezet továbbra is aktiválva van, távolítsa el a Databricks Connect for Databricks Runtime 12.2 LTS-t és az alábbiakat:
pip3 uninstall databricks-connect
Ha a virtuális környezet továbbra is aktiválva van, telepítse a Databricks Connect for Databricks Runtime 13.3 LTS és újabb verzióját:
pip3 install --upgrade "databricks-connect==14.0.*" # Or X.Y.* to match your cluster version.
Feljegyzés
A Databricks azt javasolja, hogy a "pont-csillag" jelölést ahelyett adja meg
databricks-connect==X.Y.*
databricks-connect=X.Y
, hogy a legújabb csomag telepítve legyen. Bár ez nem követelmény, segít meggyőződni arról, hogy a fürt legújabb támogatott funkcióit is használhatja.Frissítse a Python-kódot a
spark
változó inicializálásához (amely az osztály példányosítását jelenti, hasonlóan aDatabricksSession
PySparkhozSparkSession
). Példakódok : A Databricks Connect telepítése Pythonhoz.Migrálja az RDD API-kat a DataFrame API-k használatára, és migrálja az alternatív
SparkContext
megoldások használatára.
Hadoop-konfigurációk beállítása
Az ügyfélen a Hadoop-konfigurációkat az spark.conf.set
API használatával állíthatja be, amely az SQL- és DataFrame-műveletekre vonatkozik. A hadoop-konfigurációkat a sparkContext
fürtkonfigurációban vagy egy jegyzetfüzetben kell beállítani. Ennek az az oka, hogy a beállított sparkContext
konfigurációk nem kapcsolódnak a felhasználói munkamenetekhez, hanem a teljes fürtre vonatkoznak.