Gérer les ressources du fichier dans les dossiers Databricks Git

Les dossiers Git de Databricks servent de clients Git pour les clones managés par Databricks des référentiels de sources basés sur Git, ce qui vous permet d’effectuer un sous-ensemble d’opérations Git sur leur contenu à partir de votre espace de travail. Dans le cadre de cette intégration Git, les fichiers stockés dans le référentiel distant sont affichés sous la forme de « ressources » en fonction de leur type, avec certaines limitations spécifiques à leur type. Les fichiers du notebook, en particulier, ont des propriétés différentes en fonction de leur type. Lisez cet article pour comprendre comment utiliser des ressources (en particulier des notebooks IPYNB) dans les dossiers Git.

Types de ressources pris en charge

Seuls certains types d’actifs Azure Databricks sont pris en charge par les dossiers Git. Dans ce cas, « pris en charge » signifie « peut être sérialisé, contrôlé en version et transféré vers le dépôt Git de support. »

Actuellement, les types d'actifs pris en charge sont :

Type de ressource Détails
Fichier Les fichiers sont des données sérialisées et peuvent inclure n'importe quoi, des bibliothèques aux binaires en passant par le code et les images. Pour plus d’informations, consultez Que sont les fichiers d’espace de travail ?
Notebook Les notebooks sont spécifiquement les formats de fichiers de notebook pris en charge par Databricks. Les blocs-notes sont considérés comme un type d’actif Azure Databricks distinct des fichiers, car ils ne sont pas sérialisés. Les dossiers Git détermine un Notebook par l’extension de fichier (par exemple .ipynb) ou par des extensions de fichier combinées à un marqueur spécial dans le contenu du fichier (par exemple, un commentaire # Databricks notebook source au début des fichiers sources .py).
Dossier Un dossier est une structure spécifique à Azure Databricks qui représente des informations sérialisées sur un regroupement logique de fichiers dans Git. Comme prévu, l’utilisateur(-trice) le considère comme un « dossier » lorsqu’il consulte un dossier Azure Databricks Git ou y accède avec l’interface CLI Azure Databricks.

Les types de ressources Azure Databricks qui ne sont actuellement pas pris en charge dans les dossiers Git incluent les éléments suivants :

  • Requêtes DBSQL
  • Alertes
  • Tableaux de bord (y compris les tableaux de bord hérité)

Remarque

Vous pouvez déplacer des ressources existantes non supportées dans un dossier Git, mais vous ne pouvez pas livrer les modifications de ces ressources dans le référentiel. Vous ne pouvez pas créer de nouveaux actifs non pris en charge dans un dossier Git.

Formats du notebook

Databricks considère deux types de formats de notebooks spécifiques à Databricks : « source » et « ipynb ». Lorsqu’un utilisateur valide un notebook au format « source », la plateforme Databricks valide un fichier plat avec un suffixe de langue, comme .py, .sql, .scalaou .r. Un notebook au format source contient uniquement du code source et ne contient aucune sortie comme les affichages de tableau et les visualisations qui sont les résultats de l’exécution du notebook.

Le format « ipynb » comporte toutefois des sorties associées. Ces artefacts sont automatiquement envoyés au référentiel Git qui sauvegarde le dossier Git lors de l’envoi (push) du notebook .ipynb qui les a générés. Si vous souhaitez valider des sorties avec le code, utilisez le format de notebook « ipynb » et la configuration pour permettre à un utilisateur de valider les sorties générées. Par conséquent, « ipynb » prend également en charge une meilleure expérience d’affichage dans Databricks pour les notebooks envoyés vers les référentiels Git distants au moyen de dossiers Git.

Format source du notebook Détails
source Il peut s’agir de n’importe quel fichier de code avec un suffixe standard de fichier qui signale le langage du code, comme .py, .scala, .r et .sql. Les notebooks « source » sont traités comme des fichiers texte et n’incluent aucune sortie associée lorsqu’ils sont validés dans un dépôt Git.
ipynb Les fichiers « ipynb » se terminent par .ipynb et peuvent, s’ils sont configurés, envoyer (push) des sorties (telles que des visualisations) du dossier Git Databricks vers le référentiel de stockage Git. Un notebook .ipnynb peut contenir du code dans n’importe quel langage pris en charge par les notebooks Databricks (malgré la partie py de .ipynb).

Si vous souhaitez que les sorties soient renvoyées à votre dépôt après l’exécution d’un notebook, utilisez un notebook (Jupyter) .ipynb. Si vous souhaitez simplement exécuter le notebook et le gérer dans Git, utilisez un format « source » comme .py.

Pour en savoir plus sur les formats de notebooks pris en charge, consultez Exporter et importer des notebooks Databricks.

Remarque

Que sont les « sorties » ?

Les sorties sont les résultats de l’exécution d’un notebook sur la plateforme Databricks, y compris l’affichage de tables et les visualisations.

Comment savoir quel est le format utilisé par un notebook, en dehors de l’extension du fichier ?

En haut d’un notebook géré par Databricks, il existe généralement un commentaire indiquant le format en une ligne. Par exemple, pour un notebook « source » .py, vous allez voir une ligne qui ressemble à ceci :

# Databricks notebook source

Pour des fichiers .ipynb, le suffixe du fichier est utilisé pour indiquer qu’il s’agit du format de notebook « ipynb ».

Notebooks IPYNB dans les dossiers Databricks Git

La prise en charge de notebooks Jupyter (fichiers .ipynb) est disponible dans les dossiers Git. Vous pouvez cloner des dépôts avec des notebooks .ipynb, les utiliser dans le produit Databricks et les valider comme notebooks .ipynb. Les métadonnées comme le tableau de bord du notebook sont conservées. Les administrateurs peuvent contrôler si les sorties peuvent être validées ou pas.

Autoriser la validation de la sortie .ipynb du notebook

Par défaut, le paramètre d’administration des dossiers Git n’autorise pas la validation de sortie du notebook .ipynb. Les administrateurs de l’espace de travail peuvent modifier ce paramètre :

  1. Accédez aux paramètres Paramètres d’administration > Espace de travail.

  2. Sous Dossiers Git> Autoriser les dossiers Git à exporter les sorties IPYNB, sélectionner Autoriser : Les sorties IPYNB peuvent être activées.

    Console d’administration : Autoriser les dossiers Git à exporter les sorties IPYNB.

Important

Lorsque des sorties sont incluses, les configurations de tableau de bord et la visualisation sont conservées au format de fichier .ipynb.

Contrôler les validations de l’artefact de sortie du notebook IPYNB

Lorsque vous validez un fichier .ipynb, Databricks crée un fichier config pour vous permet de contrôler la façon dont vous validez les sorties : .databricks/commit_outputs.

  1. Si vous avez un fichier de notebook .ipynb, mais aucun fichier config dans votre référentiel, ouvrez le mode État Git.

  2. Dans la boite de dialogue de notification, cliquez sur Créer un fichier commit_outputs.

    Interface utilisateur de validation de notebook : bouton créer un fichier commit_outputs.

Vous pouvez également générer des fichiers config à partir du menu Fichier. Le menu Fichier dispose d’un contrôle qui vous permet de mettre à jour automatiquement le fichier config pour spécifier l’inclusion ou l’exclusion des sorties pour un notebook spécifique.

  1. Dans le menu Fichier, sélectionnez Valider les sorties des notebooks.

    Éditeur de notebook : validation de l’état et du contrôle des sorties des notebooks.

  2. Dans la boîte de dialogue, confirmez votre choix de valider les sorties de notebook.

    Boîte de dialogue de validation des sorties des notebooks.

Convertir un bloc-notes source en IPYNB

Vous pouvez convertir un notebook source existant dans un dossier Git en notebook IPYNB via l’interface utilisateur Azure Databricks.

  1. Ouvrez un bloc-notes source dans votre espace de travail.

  2. Sélectionnez Fichier dans le menu de l’espace de travail, puis sélectionnez Modifier le format du bloc-notes [source]. Si le bloc-notes est déjà au format IPYNB, [source] est [ipynb] dans l’élément de menu.

    Menu fichier d’espace de travail, développé, affichant l’option Modifier le format du notebook.

  3. Dans la boîte de dialogue modale, sélectionnez « Format du bloc-notes Jupyter (.ipynb) », puis cliquez sur Modifier.

    Boîte de dialogue modale dans laquelle vous pouvez sélectionner le format de notebook IPYNB.

Vous pouvez également :

  • Créer des nouveaux notebooks .ipynb.
  • Affichez les diffs comme code diff (modifications du code dans les cellules) ou diff brut (modifications du code présentées sous forme de syntaxe JSON, notamment des sorties de notebook sous forme de métadonnées).

Pour plus d’informations sur les types de notebooks pris en charge dans Azure Databricks, consultez Exporter et importer des notebooks Databricks.