Partager via


Installer les dépendances de notebook

Vous pouvez installer les dépendances Python pour les notebooks serverless à l’aide du panneau latéral Environnement. Ce panneau est un emplacement unique qui permet de modifier, d’afficher et d’exporter les exigences de bibliothèque d’un notebook. Ces dépendances peuvent être ajoutées à l’aide d’un environnement de base ou individuellement.

Panneau d’environnement serverless

Pour les tâches non liées à un notebook, consultez la section Configurer des environnements et des dépendances pour les tâches non-notebook.

Important

N’installez pas PySpark ou toute bibliothèque qui installe PySpark en tant que dépendance sur vos notebooks serverless. Si vous l’effectuez, votre session stoppera et entraînera une erreur. Si cela se produit, réinitialisez votre environnement.

Configurer un environnement de base

Un environnement de base est un fichier YAML stocké en tant que fichier d’espace de travail ou sur un volume Unity Catalog qui spécifie des dépendances d’environnement supplémentaires. Les environnements de base peuvent être partagés entre les notebooks. Pour configurer un environnement de base :

  1. Créez un fichier YAML qui définit les paramètres d’un environnement virtuel Python. L’exemple YAML suivant, basé sur la spécification de l’environnement des projets MLflow, définit un environnement de base avec quelques dépendances de bibliothèque :

    client: "1"
    dependencies:
      - --index-url https://pypi.org/simple
      - -r "/Workspace/Shared/requirements.txt"
      - cowsay==6.1
    
  2. Chargez le fichier YAML en tant que fichier d’espace de travail ou sur un volume Unity Catalog. Consultez Importer un fichier ou Charger des fichiers sur un volume Unity Catalog.

  3. À droite du notebook, cliquez sur le bouton Environnement pour développer le panneau Environment. Ce bouton s’affiche uniquement lorsqu’un notebook est connecté au calcul serverless.

  4. Dans le champ Base Environment, entrez le chemin d’accès au fichier YAML chargé, ou accédez-y et sélectionnez-le.

  5. Cliquez sur Appliquer. Cela installe les dépendances dans l’environnement virtuel du notebook et redémarre le processus Python.

Les utilisateurs peuvent remplacer les dépendances spécifiées dans l’environnement de base en installant des dépendances individuellement.

Ajouter des dépendances individuellement

Vous pouvez également installer des dépendances sur un notebook connecté à un calcul serverless à l’aide de l’onglet Dependencies du panneau Environment :

  1. À droite du notebook, cliquez sur le bouton Environnement pour développer le panneau Environment. Ce bouton s’affiche uniquement lorsqu’un notebook est connecté au calcul serverless.
  2. Dans la section Dependencies, cliquez sur Add Dependency et entrez le chemin d’accès à la dépendance de bibliothèque dans le champ. Vous pouvez spécifier une dépendance dans n’importe quel format valide dans un fichier requirements.txt.
  3. Cliquez sur Appliquer. Cela installe les dépendances dans l’environnement virtuel du notebook et redémarre le processus Python.

Remarque

Un travail utilisant le calcul serverless installe la spécification d’environnement du notebook avant d’exécuter le code du notebook. Cela signifie qu’il n’est pas nécessaire d’ajouter des dépendances lors de la planification des notebooks en tant que travaux. Voir Configurer des environnements et des dépendances.

Afficher les dépendances installées et les journaux pip

Pour afficher les dépendances installées, cliquez sur Installed dans le panneau latéral Environments d’un notebook. Les journaux d’installation pip pour l’environnement de notebook sont également disponibles en cliquant sur Pip logs en bas du panneau.

Réinitialiser l’environnement

Si votre notebook est connecté à un calcul serverless, Databricks met automatiquement en cache le contenu de l’environnement virtuel du notebook. Cela signifie que vous n’avez généralement pas besoin de réinstaller les dépendances Python spécifiées dans le panneau Environment lorsque vous ouvrez un notebook existant, même s’il a été déconnecté pour cause d’inactivité.

La mise en cache de l’environnement virtuel Python s’applique également aux travaux. Cela signifie que les exécutions suivantes de travaux sont plus rapides, car les dépendances requises sont déjà disponibles.

Remarque

Si vous modifiez l’implémentation d’un package Python personnalisé utilisé dans un travail serverless, vous devez également mettre à jour son numéro de version pour que les travaux récupèrent la dernière implémentation.

Pour effacer le cache de l’environnement et effectuer une nouvelle installation des dépendances spécifiées dans le panneau Environment d’un notebook attaché au calcul serverless, cliquez sur la flèche en regard de Apply, puis cliquez sur Reset environment.

Remarque

Réinitialisez l’environnement virtuel si vous installez des packages qui arrêtent ou modifient le notebook principal ou l’environnement Apache Spark. Le fait de détacher le notebook du calcul serverless et de le rattacher n’efface pas nécessairement l’ensemble du cache de l’environnement.

Configurer des environnements et des dépendances pour les tâches non-notebook

Pour d’autres types de tâches pris en charge, tels que le script Python, la roue Python ou les tâches dbt, un environnement par défaut inclut les bibliothèques Python installées. Pour afficher la liste des bibliothèques installées, consultez la section Bibliothèques Python installées dans les notes de publication de la version de Databricks Runtime sur laquelle votre déploiement du calcul serverless pour les flux de travail est basé. Pour afficher la version actuelle de Databricks Runtime utilisée par le calcul serverless pour les flux de travail, consultez les Notes de publication du calcul serverless. Si une tâche nécessite une bibliothèque Python qui n’est pas installée, vous pouvez installer la bibliothèque à partir de fichiers d’espace de travail, de volumes de catalogue Unity ou de référentiels de packages publics. Pour ajouter une bibliothèque lorsque vous créez ou modifiez une tâche :

  1. Dans le menu déroulant Environnement et bibliothèques, cliquez sur Icône Modifier en regard de l’environnement par défaut ou cliquez sur + Ajouter un nouvel environnement.

    Modifier l’environnement par défaut

  2. Dans la boîte de dialogue Configurer l’environnement, cliquez sur + Ajouter une bibliothèque.

  3. Sélectionnez le type de dépendance dans le menu déroulant sous Bibliothèques.

  4. Dans la zone de texte Chemin d’accès au fichier, entrez le chemin d’accès à la bibliothèque.

  • Pour une roue Python dans un fichier d’espace de travail, le chemin d’accès doit être absolu et commencer par /Workspace/.

  • Pour une roue Python dans un volume Unity Catalog, le chemin d’accès doit être /Volumes/<catalog>/<schema>/<volume>/<path>.whl.

  • Pour un fichier requirements.txt, sélectionnez PyPi et entrez -r /path/to/requirements.txt.

    Ajouter des bibliothèques de tâches

  1. Cliquez sur Confirmer ou + Ajouter une bibliothèque pour ajouter une autre bibliothèque.
  2. Si vous ajoutez une tâche, cliquez sur Créer une tâche. Si vous modifiez une tâche, cliquez sur Enregistrer la tâche.