Partager via


Migrer vers Databricks Connect pour Python

Cet article décrit comment migrer de Databricks Connect pour Databricks Runtime 12.2 LTS ou version antérieure vers Databricks Connect pour Databricks Runtime 13.3 LTS ou version ultérieure pour Python. Databricks Connect vous permet de connecter des environnements de développement intégré (IDE) populaires, des serveurs notebook et des applications personnalisées aux clusters Azure Databricks. Consultez la rubrique Qu’est-ce que Databricks Connect ?. Pour accéder à la version Scala de cet article, consultez la documentation Databricks Connect pour Scala.

Remarque

Avant de commencer à utiliser Databricks Connect, vous devez configurer le client Databricks Connect.

Suivez ces recommandations pour migrer votre projet de code ou votre environnement de développement Python existant de Databricks Connect pour Databricks Runtime 12.2 LTS ou version antérieure vers Databricks Connect pour Databricks Runtime 13.3 LTS ou version ultérieure.

  1. Installez la version correcte de Python suivant les indications des exigences d’installation afin qu’elle corresponde à votre cluster Azure Databricks, si elle n’est pas déjà installée localement.

  2. Mettez à niveau votre environnement virtuel Python pour utiliser la version correcte de Python qui correspond à votre cluster, si nécessaire. Pour obtenir des instructions, consultez la documentation de votre fournisseur d’environnement virtuel.

  3. Une fois votre environnement virtuel activé, désinstallez PySpark de votre environnement virtuel :

    pip3 uninstall pyspark
    
  4. Votre environnement virtuel étant toujours activé, désinstallez Databricks Connect pour Databricks Runtime 12.2 LTS et versions antérieures :

    pip3 uninstall databricks-connect
    
  5. Votre environnement virtuel étant toujours activé, installez Databricks Connect pour Databricks Runtime 13.3 LTS ou version ultérieure :

    pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
    

    Remarque

    Databricks vous recommande d’ajouter la notation « point-astérisque » pour spécifier databricks-connect==X.Y.* au lieu de databricks-connect=X.Y et vous assurer que le package le plus récent est installé. Bien qu’il ne s’agit pas d’une exigence, cela vous permet de vous assurer que vous pouvez utiliser les dernières fonctionnalités prises en charge pour ce cluster.

  6. Mettez à jour votre code Python pour initialiser la variable spark (qui représente une instanciation de la classe DatabricksSession, comme SparkSession dans PySpark). Pour obtenir des exemples de code, consultez la documentation Installer Databricks Connect pour Python.

  7. Migrez vos API RDD pour utiliser des API DataFrame et migrez vos SparkContext pour utiliser des alternatives.

Définir des configurations Hadoop

Sur le client, vous pouvez définir des configurations Hadoop à l’aide de l’API spark.conf.set, qui s’applique aux opérations SQL et DataFrame. Les configurations Hadoop définies sur sparkContext doivent être définies dans la configuration du cluster ou à l’aide d’un notebook. Cela est dû au fait que les configurations définies sur sparkContext ne sont pas liées aux sessions utilisateur, mais s’appliquent à l’ensemble du cluster.