Freigeben über


Migrieren zu Databricks Connect für Python

In diesem Artikel wird beschrieben, wie Sie von Databricks Connect für Databricks Runtime 12.2 LTS und früher zu Databricks Connect für Databricks Runtime ab Version 13.3 LTS für Python migrieren. Mit Databricks Connect können Sie beliebte IDEs, Notebookserver und benutzerdefinierte Anwendungen mit Azure Databricks-Clustern verbinden. Weitere Informationen finden Sie unter Was ist Databricks Connect?. Die Scala-Version dieses Artikels finden Sie unter Migrieren zu Databricks Connect für Scala.

Hinweis

Bevor Sie beginnen, Databricks Connect zu verwenden, müssen Sie den Databricks Connect-Client einrichten.

Befolgen Sie diese Anleitungen, um Ihr vorhandenes Python-Codeprojekt oder Ihre Codierungsumgebung von Databricks Connect für Databricks Runtime bis Version 12.2 LTS zu Databricks Connect für Databricks Runtime ab Version 13.3 LTS zu migrieren.

  1. Installieren Sie die richtige Version von Python, wie in den Installationsanforderungen aufgeführt, damit sie Ihrem Azure Databricks-Cluster entspricht, sofern diese noch nicht lokal installiert ist.

  2. Führen Sie ein Upgrade für Ihre virtuelle Python-Umgebung durch, um bei Bedarf die richtige Version von Python für Ihren Cluster zu verwenden. Anweisungen finden Sie in der Dokumentation des Anbieters Ihrer virtuellen Umgebung.

  3. Wenn Ihre virtuelle Umgebung aktiviert ist, deinstallieren Sie PySpark aus Ihrer virtuellen Umgebung:

    pip3 uninstall pyspark
    
  4. Während Ihre virtuelle Umgebung immer noch aktiviert ist, deinstallieren Sie Databricks Connect für Databricks Runtime bis Version 12.2 LTS:

    pip3 uninstall databricks-connect
    
  5. Wenn Ihre virtuelle Umgebung immer noch aktiviert ist, installieren Sie Databricks Connect für Databricks Runtime ab Version 13.3 LTS:

    pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
    

    Hinweis

    Databricks empfiehlt, die Notation „Punkt-Sternchen“ anzufügen, um databricks-connect==X.Y.* anstelle von databricks-connect=X.Y anzugeben, um sicherzustellen, dass das neueste Paket installiert ist. Dies ist zwar keine Anforderung, aber es hilft sicherzustellen, dass Sie die aktuellen unterstützten Features für diesen Cluster verwenden können.

  6. Aktualisieren Sie Ihren Python-Code, um die spark-Variable zu initialisieren (die eine Instanziierung der DatabricksSession -Klasse darstellt, ähnlich wie SparkSession in PySpark). Codebeispiele finden Sie unter Installieren Databricks Connect für Python.

  7. Migrieren Sie Ihre RDD-APIs, um DataFrame-APIs zu verwenden, und migrieren Sie Ihre SparkContext, um Alternativen zu verwenden.

Festlegen von Hadoop-Konfigurationen

Auf dem Client können Sie Hadoop-Konfigurationen mithilfe der spark.conf.set-API festlegen, die für SQL- und DataFrame-Vorgänge gilt. Hadoop-Konfigurationen, die für sparkContext festgelegt werden, müssen in der Clusterkonfiguration oder mithilfe eines Notebooks festgelegt werden. Dies liegt daran, dass die für sparkContext festgelegten Konfigurationen nicht an Benutzersitzungen gebunden sind, sondern für den gesamten Cluster gelten.