Share via


Migrera till Databricks Anslut för Python

Den här artikeln beskriver hur du migrerar från Databricks Anslut för Databricks Runtime 12.2 LTS och nedan till Databricks Anslut för Databricks Runtime 13.0 och senare för Python. Med Databricks Anslut kan du ansluta populära ID:er, notebook-servrar och anpassade program till Azure Databricks-kluster. Se Vad är Databricks Anslut?. Scala-versionen av den här artikeln finns i Migrera till Databricks Anslut för Scala.

Kommentar

Innan du börjar använda Databricks Anslut måste du konfigurera Databricks-Anslut-klienten.

Följ dessa riktlinjer för att migrera ditt befintliga Python-kodprojekt eller kodningsmiljö från Databricks Anslut för Databricks Runtime 12.2 LTS och nedan till Databricks Anslut för Databricks Runtime 13.0 och senare.

  1. Installera rätt version av Python enligt installationskraven för att matcha ditt Azure Databricks-kluster, om det inte redan är installerat lokalt.

  2. Uppgradera din virtuella Python-miljö för att använda rätt version av Python för att matcha klustret om det behövs. Anvisningar finns i dokumentationen för din virtuella miljöleverantör.

  3. När den virtuella miljön är aktiverad avinstallerar du PySpark från din virtuella miljö:

    pip3 uninstall pyspark
    
  4. När den virtuella miljön fortfarande är aktiverad avinstallerar du Databricks Anslut för Databricks Runtime 12.2 LTS och nedan:

    pip3 uninstall databricks-connect
    
  5. När den virtuella miljön fortfarande är aktiverad installerar du Databricks Anslut för Databricks Runtime 13.0 och senare:

    pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
    

    Kommentar

    Databricks rekommenderar att du lägger till notationen "dot-asterisk" för att ange databricks-connect==X.Y.* i stället för databricks-connect=X.Y, för att se till att det senaste paketet är installerat. Detta är inte ett krav, men det hjälper dig att se till att du kan använda de senaste funktionerna som stöds för klustret.

  6. Uppdatera Python-koden för att initiera variabeln spark (som representerar en instansiering av DatabricksSession klassen, ungefär som SparkSession i PySpark). Kodexempel finns i Installera Databricks Anslut för Python.

  7. Migrera DINA RDD-API:er för att använda DataFrame-API:er och migrera dina SparkContext alternativ.

Ange Hadoop-konfigurationer

På klienten kan du ange Hadoop-konfigurationer med hjälp av API:et spark.conf.set , som gäller för SQL- och DataFrame-åtgärder. Hadoop-konfigurationer som angetts för sparkContext måste anges i klusterkonfigurationen eller med hjälp av en notebook-fil. Det beror på sparkContext att konfigurationer som angetts inte är knutna till användarsessioner utan gäller för hela klustret.