Migrálás a Databricks Connectbe Python

Ez a cikk bemutatja, hogyan migrálható a Databricks Connect a Databricks Runtime 12.2 LTS és korábbi verziókról a Databricks Connect for Databricks Runtime 13.3 LTS és újabb verziókra Python környezetben. A Databricks Connect lehetővé teszi az integrált fejlesztőkörnyezetek, notebook szerverek és egyéni alkalmazások csatlakoztatását az Azure Databricks fürtökhöz. Lásd : Databricks Connect.

A Databricks Connect használatának megkezdése előtt be kell állítania a Databricks Connect kliensét.

A cikk Scala-verziójával kapcsolatban lásd : Migrálás a Databricks Connect for Scalához.

A Python projekt migrálása

Meglévő Python kódprojekt vagy kódolási környezet migrálása a Databricks Connect for Databricks Runtime 12.2 LTS-ről a Databricks Connect for Databricks Runtime 13.3 LTS-re és az annál újabb verziókra:

  1. Telepítse a Python megfelelő verzióját a telepítési követelmények szerint, hogy megfeleljen a Azure Databricks fürtnek, ha még nincs helyileg telepítve.

  2. Frissítse a Python virtuális környezetet, hogy szükség esetén a klaszterhez megfelelő Python verziót használja. Útmutatásért tekintse meg a virtuális környezet szolgáltatójának dokumentációját.

  3. A virtuális környezet aktiválásával távolítsa el a PySparkot a virtuális környezetből:

    pip3 uninstall pyspark
    
  4. Ha a virtuális környezet továbbra is aktiválva van, távolítsa el a Databricks Connect for Databricks Runtime 12.2 LTS-t és az alábbiakat:

    pip3 uninstall databricks-connect
    
  5. Ha a virtuális környezet továbbra is aktiválva van, telepítse a Databricks Connect for Databricks Runtime 13.3 LTS és újabb verzióját:

    pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
    

    Feljegyzés

    A Databricks azt javasolja, hogy adja hozzá a „pont-csillag” jelölést a megadott databricks-connect==X.Y.* helyett databricks-connect=X.Y-hoz annak érdekében, hogy a legfrissebb csomag legyen telepítve. Bár ez nem követelmény, de segítség lehet abban, hogy a legújabb támogatott funkciókat használni tudja a klaszteren.

  6. Frissítse a Python kódot a spark változó inicializálásához (amely az DatabricksSession osztály példányosítását jelenti, hasonlóan a PySparkban SparkSession). Lásd a Databricks Connect számítási konfigurációját.

  7. Migrálja az RDD API-kat a DataFrame API-k használatára, és migrálja a SparkContext-t alternatívák használatára.

Hadoop-konfigurációk beállítása

Az ügyfélen a Hadoop-konfigurációkat az spark.conf.set API használatával állíthatja be, amely az SQL- és DataFrame-műveletekre vonatkozik. A Hadoop-konfigurációkat a sparkContext fürtkonfigurációban vagy egy jegyzetfüzet használatával kell beállítani. Ennek az az oka, hogy a beállított sparkContext konfigurációk nem kapcsolódnak a felhasználói munkamenetekhez, hanem a teljes fürtre vonatkoznak.