Megosztás a következőn keresztül:


Migrálás a Pythonhoz készült Databricks Connectbe

Ez a cikk bemutatja, hogyan migrálható a Databricks Connect for Databricks Runtime 12.2 LTS-ről az alábbi Databricks Connect for Databricks Runtime 13.3 LTS-hez és újabb Pythonhoz. A Databricks Connect lehetővé teszi népszerű azonosítók, notebook-kiszolgálók és egyéni alkalmazások Azure Databricks-fürtökhöz való csatlakoztatását. Lásd : Mi az a Databricks Connect?. A cikk Scala-verziójával kapcsolatban lásd : Migrálás a Databricks Connect for Scalához.

Feljegyzés

A Databricks Connect használatának megkezdése előtt be kell állítania a Databricks Connect-ügyfelet.

Az alábbi útmutatást követve migrálhatja meglévő Python-kódprojektjét vagy kódolási környezetét a Databricks Connect for Databricks Runtime 12.2 LTS-ből a Databricks Connect for Databricks Runtime 13.3 LTS-hez és újabb verziókhoz.

  1. Telepítse a Python megfelelő verzióját a telepítési követelményekben felsorolt módon az Azure Databricks-fürtnek megfelelően, ha még nincs helyileg telepítve.

  2. Frissítse a Python virtuális környezetet úgy, hogy szükség esetén a Python megfelelő verzióját használja a fürthöz. Útmutatásért tekintse meg a virtuális környezet szolgáltatójának dokumentációját.

  3. A virtuális környezet aktiválásával távolítsa el a PySparkot a virtuális környezetből:

    pip3 uninstall pyspark
    
  4. Ha a virtuális környezet továbbra is aktiválva van, távolítsa el a Databricks Connect for Databricks Runtime 12.2 LTS-t és az alábbiakat:

    pip3 uninstall databricks-connect
    
  5. Ha a virtuális környezet továbbra is aktiválva van, telepítse a Databricks Connect for Databricks Runtime 13.3 LTS és újabb verzióját:

    pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
    

    Feljegyzés

    A Databricks azt javasolja, hogy a "pont-csillag" jelölést ahelyett adja meg databricks-connect==X.Y.* databricks-connect=X.Y, hogy a legújabb csomag telepítve legyen. Bár ez nem követelmény, segít meggyőződni arról, hogy a fürt legújabb támogatott funkcióit is használhatja.

  6. Frissítse a Python-kódot a spark változó inicializálásához (amely az osztály példányosítását jelenti, hasonlóan a DatabricksSession PySparkhoz SparkSession ). Példakódok : A Databricks Connect telepítése Pythonhoz.

  7. Migrálja az RDD API-kat a DataFrame API-k használatára, és migrálja az alternatív SparkContext megoldások használatára.

Hadoop-konfigurációk beállítása

Az ügyfélen a Hadoop-konfigurációkat az spark.conf.set API használatával állíthatja be, amely az SQL- és DataFrame-műveletekre vonatkozik. A hadoop-konfigurációkat a sparkContext fürtkonfigurációban vagy egy jegyzetfüzetben kell beállítani. Ennek az az oka, hogy a beállított sparkContext konfigurációk nem kapcsolódnak a felhasználói munkamenetekhez, hanem a teljes fürtre vonatkoznak.