Redémarrer le processus Python sur Azure Databricks

Vous pouvez redémarrer par programmation le processus Python sur Azure Databricks pour garantir que les bibliothèques installées localement ou mises à niveau fonctionnent correctement dans le noyau Python de votre session SparkSession actuelle.

Lorsque vous redémarrez le processus Python, vous perdez les informations d’état Python. Databricks recommande d’installer toutes les bibliothèques étendues à la session au début d’un notebook et d’exécuter dbutils.library.restartPython() pour nettoyer le processus Python avant de continuer.

Vous pouvez utiliser ce processus dans des notebooks interactifs ou pour des tâches Python planifiées avec des flux de travail.

Qu'est-ce que dbutils.library.restartPython ?

La fonction d’assistance dbutils.library.restartPython() est la méthode recommandée pour redémarrer le processus Python dans un notebook Databricks.

Notes

La plupart des méthodes du sous-module dbutils.library sont déconseillées. Databricks recommande vivement d’utiliser %pip pour gérer toutes les installations de bibliothèques étendues au notebook. Consultez Bibliothèques Python délimitées à un notebook.

Quand devez-vous redémarrer votre processus Python ?

Il est judicieux de redémarrer votre processus Python chaque fois que vous effectuez une installation locale incluant l’un des éléments suivants :

  • Spécification d’une version d’un package inclus dans Databricks Runtime.
  • Installation d’une version personnalisée d’un package inclus dans Databricks Runtime.
  • Mise à jour explicite d’une bibliothèque vers la version la plus récente à l’aide de %pip install <library-name> --upgrade.
  • Configuration d’un environnement personnalisé à partir d’un fichier requirements.txt local.
  • Installation d’une bibliothèque qui nécessite la modification des versions des bibliothèques dépendantes incluses dans Databricks Runtime.