Megjegyzés
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhat bejelentkezni vagy módosítani a címtárat.
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhatja módosítani a címtárat.
Ez a cikk bemutatja, hogyan migrálható a Databricks Connect a Databricks Runtime 12.2 LTS és korábbi verziókról a Databricks Connect for Databricks Runtime 13.3 LTS és újabb verziókra Python környezetben. A Databricks Connect lehetővé teszi az integrált fejlesztőkörnyezetek, notebook szerverek és egyéni alkalmazások csatlakoztatását az Azure Databricks fürtökhöz. Lásd : Databricks Connect.
A Databricks Connect használatának megkezdése előtt be kell állítania a Databricks Connect kliensét.
A cikk Scala-verziójával kapcsolatban lásd : Migrálás a Databricks Connect for Scalához.
A Python projekt migrálása
Meglévő Python kódprojekt vagy kódolási környezet migrálása a Databricks Connect for Databricks Runtime 12.2 LTS-ről a Databricks Connect for Databricks Runtime 13.3 LTS-re és az annál újabb verziókra:
Telepítse a Python megfelelő verzióját a telepítési követelmények szerint, hogy megfeleljen a Azure Databricks fürtnek, ha még nincs helyileg telepítve.
Frissítse a Python virtuális környezetet, hogy szükség esetén a klaszterhez megfelelő Python verziót használja. Útmutatásért tekintse meg a virtuális környezet szolgáltatójának dokumentációját.
A virtuális környezet aktiválásával távolítsa el a PySparkot a virtuális környezetből:
pip3 uninstall pysparkHa a virtuális környezet továbbra is aktiválva van, távolítsa el a Databricks Connect for Databricks Runtime 12.2 LTS-t és az alábbiakat:
pip3 uninstall databricks-connectHa a virtuális környezet továbbra is aktiválva van, telepítse a Databricks Connect for Databricks Runtime 13.3 LTS és újabb verzióját:
pip3 install --upgrade "databricks-connect==14.0.*" # Or X.Y.* to match your cluster version.Feljegyzés
A Databricks azt javasolja, hogy adja hozzá a „pont-csillag” jelölést a megadott
databricks-connect==X.Y.*helyettdatabricks-connect=X.Y-hoz annak érdekében, hogy a legfrissebb csomag legyen telepítve. Bár ez nem követelmény, de segítség lehet abban, hogy a legújabb támogatott funkciókat használni tudja a klaszteren.Frissítse a Python kódot a
sparkváltozó inicializálásához (amely azDatabricksSessionosztály példányosítását jelenti, hasonlóan a PySparkbanSparkSession). Lásd a Databricks Connect számítási konfigurációját.Migrálja az RDD API-kat a DataFrame API-k használatára, és migrálja a
SparkContext-t alternatívák használatára.
Hadoop-konfigurációk beállítása
Az ügyfélen a Hadoop-konfigurációkat az spark.conf.set API használatával állíthatja be, amely az SQL- és DataFrame-műveletekre vonatkozik. A Hadoop-konfigurációkat a sparkContext fürtkonfigurációban vagy egy jegyzetfüzet használatával kell beállítani. Ennek az az oka, hogy a beállított sparkContext konfigurációk nem kapcsolódnak a felhasználói munkamenetekhez, hanem a teljes fürtre vonatkoznak.