Gérer des notebooks

Vous pouvez gérer les notebooks à l’aide de l’interface utilisateur, de l’interface CLI et en appelant l’API Workspace. Cet article analyse le fonctionnement des tâches de notebook avec l’interface utilisateur. Pour les autres méthodes, consultez CLI Databricks et API Workspace 2.0.

Créer un notebook

Utiliser le bouton Créer

Le moyen le plus simple de créer un notebook consiste à utiliser votre dossier par défaut et à cliquer sur le bouton Créer :

  1. Cliquez sur Nouvelle icôneNouveau dans la barre latérale, puis sélectionnez Notebook dans le menu. La boîte de dialogue Créer un notebook s’affiche.
  2. Entrez un nom et sélectionnez la langue par défaut du notebook.
  3. Si des clusters sont en cours d’exécution, la liste déroulante Cluster s’affiche. Sélectionnez le cluster auquel vous souhaitez attacher le notebook.
  4. Cliquez sur Créer.

Créer un notebook dans n’importe quel dossier

Vous pouvez créer un nouveau notebook dans n’importe quel dossier (par exemple, dans le dossier Partagé) en procédant comme suit :

  1. Dans la barre latérale, cliquez sur l’icône d’espace de travailEspace de travail. Effectuez l’une des opérations suivantes :
    • À côté d’un dossier, cliquez sur le menu déroulant à droite du texte et sélectionnez Créer> Notebook.

      Créer un notebook

    • Dans l’espace de travail ou sur un dossier utilisateur, cliquez sur Circonflexe inversé et sélectionnez Créer> Notebook.

  2. Suivez les étapes 2 et 4 de la section Utiliser le bouton Créer.

Ouvrir un notebook

Dans votre espace de travail, cliquez sur l’icône de notebook. Le chemin d’accès au notebook s’affiche lorsque vous pointez votre souris sur le titre du notebook.

Supprimer un bloc-notes

Pour plus d’informations sur l’accès au menu de l’espace de travail et sur la suppression d’un notebook ou d’autres éléments dans l’espace de travail, voir Dossiers et Opérations d’objet dans l’espace de travail.

Copier le chemin d’un notebook

Pour copier un chemin d’accès vers le fichier de notebook sans ouvrir le notebook, cliquez avec le bouton droit de la souris sur le nom du notebook ou cliquez sur le menu déroulant à droite du nom et sélectionnez Copier le chemin d’accès du fichier.

Copier le chemin d’un notebook

Renommer un notebook

Pour modifier le titre d’un notebook ouvert, cliquez sur son titre et modifiez-le en ligne ou cliquez sur Fichier > Renommer.

Contrôler l’accès à un notebook

Si votre compte Azure Databricks possède le plan Premium, vous pouvez utiliser le contrôle d’accès aux espaces de travail pour contrôler qui a accès à un notebook.

Formats externes de notebooks

Azure Databricks prend en charge plusieurs formats externes de notebook :

  • Fichier source : fichier contenant uniquement des instructions de code source avec l’extension .scala, .py, .sql ou .r.
  • HTML : notebook Azure Databricks avec l’extension .html.
  • Archive DBC : archive Databricks.
  • Notebook IPython : notebook Jupyter avec l’extension .ipynb.
  • RMarkdown : document R Markdown avec l’extension .Rmd.

Dans cette section :

Importer un notebook

Vous pouvez importer un notebook externe à partir d’une URL ou d’un fichier. Vous pouvez également importer une archive ZIP des notebooks exportés en bloc à partir d’un espace de travail Azure Databricks.

  1. Cliquez sur l’icône d’espace de travailEspace de travail dans la barre latérale. Effectuez l’une des opérations suivantes :

    • À côté d’un dossier, cliquez sur le menu déroulant à droite du texte et sélectionnez Importer.

    • Dans l’espace de travail ou sur un dossier utilisateur, cliquez sur Circonflexe inversé et sélectionnez Importer.

      Importer un notebook

  2. Spécifiez l’URL ou accédez à un fichier contenant un format externe pris en charge ou une archive ZIP des notebooks exportés à partir d’un espace de travail Azure Databricks.

  3. Cliquez sur Importer.

    • Si vous choisissez un seul notebook, il est exporté dans le dossier actuel.
    • Si vous choisissez une archive DBC ou ZIP, sa structure de dossiers est recréée dans le dossier actuel et chaque notebook est importé.

Convertir un fichier en notebook

Vous pouvez convertir des scripts Python, SQL, Scala et R existants en notebooks à cellule unique en ajoutant un commentaire à la première cellule du fichier :

Python

# Databricks notebook source

SQL

-- Databricks notebook source

Scala

// Databricks notebook source

R

# Databricks notebook source

Les notebooks Databricks utilisent un commentaire spécial entouré d’espaces blancs pour définir des cellules :

Python

# COMMAND ----------

SQL

-- COMMAND ----------

Scala

// COMMAND ----------

R

# COMMAND ----------

Exporter un notebook

Dans la barre d’outils du notebook, sélectionnez Fichier > Exporter et choisissez un format.

Notes

Lorsque vous exportez un notebook au format HTML, un notebook IPython ou une archive (DBC) et que vous n’avez pas effacé les résultats, les résultats de l’exécution du notebook sont inclus dans l’export.

Exporter tous les notebooks dans un dossier

Notes

Lorsque vous exportez un notebook au format HTML, un notebook IPython ou une archive (DBC) et que vous n’avez pas effacé les résultats, les résultats de l’exécution du notebook sont inclus dans l’export.

Pour exporter tous les dossiers dans un dossier d’espace de travail en tant qu’archive ZIP :

  1. Cliquez sur l’icône d’espace de travailEspace de travail dans la barre latérale. Effectuez l’une des opérations suivantes :
    • À côté d’un dossier, cliquez sur le menu déroulant à droite du texte et sélectionnez Exporter.
    • Dans l’espace de travail ou sur un dossier utilisateur, cliquez sur Circonflexe inversé et sélectionnez Exporter.
  2. Sélectionner le format d’exportation :
    • Archive DBC : exporter une archive Databricks, un format binaire incluant les métadonnées et les résultats des commandes de notebook.
    • Fichier source : exporter une archive ZIP des fichiers sources du notebook, qui peuvent être importés dans un espace de travail Azure Databricks, utilisés dans un pipeline CI/CD, ou affichés en tant que fichiers sources dans la langue par défaut de chaque notebook. Les résultats de la commande de notebook ne sont pas inclus.
    • Archive HTML : exporter une archive ZIP des fichiers HTML. Le fichier HTML de chaque notebook peut être importé dans un espace de travail Azure Databricks ou affiché au format HTML. Les résultats de la commande de notebook sont inclus.

Notebooks et clusters

Avant de pouvoir effectuer des tâches dans un notebook, vous devez d’abord attacher le notebook à un cluster. Cette section décrit ce qui se passe en coulisse lorsque vous exécutez ces actions.

Contextes d’exécution

Lorsque vous attachez un notebook à un cluster, Azure Databricks crée un contexte d’exécution. Un contexte d’exécution contient l’état d’un environnement REPL pour chaque langage de programmation pris en charge : Python, R, Scala et SQL. Lorsque vous exécutez une cellule dans un notebook, la commande est distribuée à l’environnement de REPL de langage approprié et exécutée.

Vous pouvez également utiliser l’API REST 1.2 pour créer un contexte d’exécution et envoyer une commande à exécuter dans le contexte d’exécution. De même, la commande est distribuée à l’environnement REPL de langage et exécutée.

Un cluster a un nombre maximal de contextes d’exécution (145). Une fois que le nombre de contextes d’exécution a atteint ce seuil, vous ne pouvez pas attacher un notebook au cluster ou créer un nouveau contexte d’exécution.

Contextes d’exécution inactifs

Un contexte d’exécution est considéré comme inactif lorsque la dernière exécution s’est terminée après un seuil d’inactivité défini. La dernière exécution terminée est la dernière fois que le notebook a terminé l’exécution des commandes. Le seuil d’inactivité correspond à la durée qui doit s’écouler entre la dernière exécution terminée et toute tentative de détachement automatique du notebook. Le seuil d’inactivité par défaut est de 24 heures.

Lorsqu’un cluster a atteint la limite de contexte maximale, Azure Databricks supprime (expulse) les contextes d’exécution inactifs (en commençant par le plus anciennement utilisé) en fonction des besoins. Même en cas de suppression d’un contexte, le notebook utilisant le contexte est toujours attaché au cluster et s’affiche dans la liste des notebooks du cluster. Les notebooks de streaming sont considérés comme s’exécutant activement et leur contexte n’est jamais expulsé tant que leur exécution n’a pas été arrêtée. Si un contexte inactif est supprimé, l’interface utilisateur affiche un message indiquant que le notebook utilisant le contexte a été détaché en raison d’une inactivité.

Contexte du Notebook supprimé

Si vous tentez d’attacher un notebook à un cluster qui a le nombre maximal de contextes d’exécution et qu’il n’y a pas de contextes inactifs (ou si la suppression automatique est désactivée), l’interface utilisateur affiche un message indiquant que le seuil de contextes d’exécution maximal actuel a été atteint et que notebook reste à l’état détaché.

Notebook détaché

Si vous dupliquez un processus, un contexte d’exécution inactif est toujours considéré comme inactif une fois que l’exécution de la requête qui a dupliqué le processus a été retournée. La duplication de processus distincts n’est pas recommandée avec Spark.

Configurer l’éviction automatique du contexte

L’éviction automatique est activée par défaut. Pour désactiver l’éviction automatique pour un cluster, définissez la propriété Sparkspark.databricks.chauffeur.enableIdleContextTracking false.

Déterminer la version Spark et Databricks Runtime

Pour déterminer la version Spark du cluster auquel votre notebook est attaché, exécutez :

spark.version

Pour déterminer la version Databricks Runtime du cluster auquel votre notebook est attaché, exécutez :

spark.conf.get("spark.databricks.clusterUsageTags.sparkVersion")

Notes

La balise sparkVersion et la propriété spark_version requises par les points de terminaison dans les API Clusters 2.0 et API Jobs 2.1 se réfèrent à la version Databricks Runtime, pas à la version Spark.

Afficher tous les notebooks attachés à un cluster

L’onglet Notebooks de la page de détails du cluster affiche tous les notebooks attachés à un cluster. L’onglet affiche également l’état de chaque notebook attaché, ainsi que la dernière fois qu’une commande a été exécutée à partir du notebook.

Notebooks de détails du cluster attachés

Distribuer des notebooks

Pour vous permettre de distribuer facilement des notebooksAzure Databricks, Azure Databricks prend en charge l’archive Databricks, un package qui peut contenir un dossier de notebooks ou un seul notebook. Une archive Databricks est un fichier JAR contenant des métadonnées supplémentaires et portant l’extension .dbc. Les notebooks contenus dans l’archive sont dans un format interne Azure Databricks.

Importer une archive

  1. Cliquez sur Circonflexe inversé ou sur le menu déroulant à droite d’un dossier ou d’un notebook et sélectionnez Importer.
  2. Choisissez Fichier ou URL.
  3. Accédez à ou déposez une archive Databricks dans la zone de dépôt.
  4. Cliquez sur Importer. L’archive est importée dans Azure Databricks. Si l’archive contient un dossier, Azure Databricks recrée ce dossier.

Importer une archive

Cliquez sur Circonflexe inversé ou sur le menu déroulant à droite d’un dossier ou d’un notebook et sélectionnez Exporter > Archive DBC. Azure Databricks télécharge un fichier nommé <[folder|notebook]-name>.dbc.