Que sont les fichiers d’espace de travail ?
Un fichier d’espace de travail est un fichier dans votre arborescence de fichiers d’espace de travail Azure Databricks qui n’est pas l’un des types répertoriés comme suit :
- Blocs-notes
- Requêtes
- Tableaux de bord
- Espaces Genie
- Expériences
Les fichiers d’espace de travail peuvent être n’importe quel type de fichier autre que ces types exclus. Voici quelques exemples communs :
- Fichiers
.py
utilisés dans des modules personnalisés. - Fichiers
.md
, commeREADME.md
. - Fichiers
.csv
ou d’autres petits fichiers de données. .txt
fichiers..whl
bibliothèques.- Fichiers journaux.
Pour obtenir des recommandations sur l’utilisation des fichiers, consultez Recommandations pour les fichiers dans les volumes et les fichiers d’espace de travail.
Votre arborescence de fichiers d’espace de travail Azure Databricks peut contenir des dossiers attachés à un référentiel Git appelé « Dossiers Git Databricks ». Ils ont des limitations supplémentaires dans la prise en charge des types de fichiers. Pour obtenir la liste des types de fichiers pris en charge dans les dossiers Git (anciennement « Repos »), consultez Les types de ressources pris en charge dans les dossiers Git.
Important
Les fichiers d’espace de travail sont activés partout par défaut dans Databricks Runtime version 11.2. Pour les charges de travail de production, utilisez Databricks Runtime 11.3 LTS ou version ultérieure. Contactez l’administrateur de votre espace de travail si vous ne pouvez pas accéder à cette fonctionnalité.
Ce que vous pouvez faire avec des fichiers d’espace de travail
Azure Databricks fournit des fonctionnalités similaires au développement local pour de nombreux types de fichiers d’espace de travail, y compris un éditeur de fichiers intégré. Les cas d’usage ne sont pas tous pris en charge pour l’ensemble des types de fichiers.
Vous pouvez créer, modifier et gérer l’accès aux fichiers d’espace de travail à l’aide de modèles familiers à partir d’interactions de notebook. Vous pouvez utiliser des chemins relatifs pour les importations de bibliothèques à partir de fichiers d’espace de travail, comme pour le développement local. Pour plus d'informations, consultez la page suivante :
- Utilisation de base des fichiers d’espace de travail
- Interagir par programmation avec les fichiers d’espace de travail
- Utiliser des modules Python et R
- Afficher les images
- Gérer des notebooks
- Listes de contrôle d’accès des fichiers
Les scripts d’initialisation stockés dans les fichiers d’espace de travail ont un comportement particulier. Vous pouvez utiliser des fichiers d’espace de travail pour stocker et référencer des scripts d’initialisation dans n’importe quelle version de Databricks Runtime. Consultez l’article Stocker les scripts d’initialisation dans des fichiers d’espace de travail.
Remarque
Dans Databricks Runtime 14.0 et versions ultérieures, le répertoire de travail actuel (CWD) par défaut pour le code exécuté localement est le répertoire contenant le notebook ou le script en cours d'exécution. Il s’agit d’un changement de comportement de Databricks Runtime 13.3 LTS et versions antérieures. Consultez Quel est le répertoire de travail actuel par défaut ?.
Limitations
- Si votre workflow utilise du code source situé dans un dépôt Git distant, vous ne pouvez pas écrire dans le répertoire actif ou écrire à l’aide d’un chemin relatif. Options d’écriture dans d’autres options d’emplacement.
- Vous ne pouvez pas utiliser de commandes
git
lorsque vous enregistrez dans des fichiers de l’espace de travail. La création de répertoires.git
n'est pas autorisée dans les fichiers de l'espace de travail. - La lecture à partir de fichiers d’espace de travail à l’aide d’exécuteurs Spark (tels que
spark.read.format("csv").load("file:/Workspace/Users/<user-folder>/data.csv")
) n’est pas prise en charge avec le calcul serverless. - Les exécuteurs ne peuvent pas écrire dans les fichiers de l'espace de travail.
- Les liens symboliques sont pris en charge pour les répertoires cibles sous le
/Workspace
dossier racine. - Les fichiers d’espaces de travail ne sont pas accessibles depuis les fonctions définies par l’utilisateur (UDF) sur des clusters avec mode d’accès partagé sur Databricks Runtime 14.2 et versions inférieures.
Limite de la taille du fichier
- La taille du fichier de l’espace de travail est limitée à 500 Mo à partir de l’interface utilisateur. La taille maximale des fichiers autorisée lors de l’écriture à partir d’un cluster est de 256 Mo.
Limite d’autorisation d’accès aux fichiers
L’autorisation d’accéder aux fichiers dans les dossiers /Workspace
expire après 36 heures pour le calcul interactif et après 30 jours pour les travaux. Databricks recommande d’exécuter des exécutions longues en tant que travaux s’ils ont besoin d’un accès aux fichiers /Workspace.
Activer les fichiers d’espace de travail
Pour activer la prise en charge des fichiers non-notebooks dans votre espace de travail Databricks, appelez l’API REST /api/2.0/workspace-conf à partir d’un notebook ou d’un autre environnement avec accès à votre espace de travail Databricks. Les fichiers d’espace de travail sont activés par défaut.
Pour activer ou réactiver la prise en charge des fichiers non-notebooks dans votre espace de travail Databricks, appelez /api/2.0/workspace-conf
et obtenez la valeur de la clé enableWorkspaceFileSystem
. Si elle est définie sur true
, les fichiers non-notebooks sont déjà activés pour votre espace de travail.
L’exemple suivant montre comment appeler cette API à partir d’un notebook pour vérifier si les fichiers de l’espace de travail sont désactivés et, le cas échéant, les réactiver.