Migrera till Databricks Anslut för Python
Den här artikeln beskriver hur du migrerar från Databricks Anslut för Databricks Runtime 12.2 LTS och nedan till Databricks Anslut för Databricks Runtime 13.0 och senare för Python. Med Databricks Anslut kan du ansluta populära ID:er, notebook-servrar och anpassade program till Azure Databricks-kluster. Se Vad är Databricks Anslut?. Scala-versionen av den här artikeln finns i Migrera till Databricks Anslut för Scala.
Kommentar
Innan du börjar använda Databricks Anslut måste du konfigurera Databricks-Anslut-klienten.
Följ dessa riktlinjer för att migrera ditt befintliga Python-kodprojekt eller kodningsmiljö från Databricks Anslut för Databricks Runtime 12.2 LTS och nedan till Databricks Anslut för Databricks Runtime 13.0 och senare.
Installera rätt version av Python enligt installationskraven för att matcha ditt Azure Databricks-kluster, om det inte redan är installerat lokalt.
Uppgradera din virtuella Python-miljö för att använda rätt version av Python för att matcha klustret om det behövs. Anvisningar finns i dokumentationen för din virtuella miljöleverantör.
När den virtuella miljön är aktiverad avinstallerar du PySpark från din virtuella miljö:
pip3 uninstall pyspark
När den virtuella miljön fortfarande är aktiverad avinstallerar du Databricks Anslut för Databricks Runtime 12.2 LTS och nedan:
pip3 uninstall databricks-connect
När den virtuella miljön fortfarande är aktiverad installerar du Databricks Anslut för Databricks Runtime 13.0 och senare:
pip3 install --upgrade "databricks-connect==14.0.*" # Or X.Y.* to match your cluster version.
Kommentar
Databricks rekommenderar att du lägger till notationen "dot-asterisk" för att ange
databricks-connect==X.Y.*
i stället fördatabricks-connect=X.Y
, för att se till att det senaste paketet är installerat. Detta är inte ett krav, men det hjälper dig att se till att du kan använda de senaste funktionerna som stöds för klustret.Uppdatera Python-koden för att initiera variabeln
spark
(som representerar en instansiering avDatabricksSession
klassen, ungefär somSparkSession
i PySpark). Kodexempel finns i Installera Databricks Anslut för Python.Migrera DINA RDD-API:er för att använda DataFrame-API:er och migrera dina
SparkContext
alternativ.
Ange Hadoop-konfigurationer
På klienten kan du ange Hadoop-konfigurationer med hjälp av API:et spark.conf.set
, som gäller för SQL- och DataFrame-åtgärder. Hadoop-konfigurationer som angetts för sparkContext
måste anges i klusterkonfigurationen eller med hjälp av en notebook-fil. Det beror på sparkContext
att konfigurationer som angetts inte är knutna till användarsessioner utan gäller för hela klustret.