Partager via


Que sont les fichiers d’espace de travail ?

Un fichier d’espace de travail est un fichier de l’espace de travail Azure Databricks qui n’est pas un notebook Databricks. Les fichiers d’espace de travail peuvent avoir n’importe quel type. Voici quelques exemples communs :

  • Fichiers .py utilisés dans des modules personnalisés.
  • Fichiers .md, comme README.md.
  • Fichiers .csv ou d’autres petits fichiers de données.
  • .txt fichiers.
  • .whl bibliothèques.
  • Fichiers journaux.

Les fichiers d’espace de travail incluent des fichiers anciennement appelés « Fichiers dans Repos ». Pour obtenir des recommandations sur l’utilisation des fichiers, consultez Recommandations pour les fichiers dans les volumes et les fichiers d’espace de travail.

Important

Les fichiers d’espace de travail sont activés partout par défaut dans Databricks Runtime version 11.2, mais peuvent être désactivés par des administrateurs à l’aide de l’API REST. Pour les charges de travail de production, utilisez Databricks Runtime 11.3 LTS ou version ultérieure. Contactez l’administrateur de votre espace de travail si vous ne pouvez pas accéder à cette fonctionnalité.

Ce que vous pouvez faire avec des fichiers d’espace de travail

Azure Databricks fournit des fonctionnalités similaires au développement local pour de nombreux types de fichiers d’espace de travail, y compris un éditeur de fichiers intégré. Les cas d’usage ne sont pas tous pris en charge pour l’ensemble des types de fichiers. Par exemple, vous pouvez inclure des images dans un répertoire ou un référentiel importé, mais vous ne pouvez pas incorporer d’images dans des notebooks.

Vous pouvez créer, modifier et gérer l’accès aux fichiers d’espace de travail à l’aide de modèles familiers à partir d’interactions de notebook. Vous pouvez utiliser des chemins relatifs pour les importations de bibliothèques à partir de fichiers d’espace de travail, comme pour le développement local. Pour plus d'informations, consultez la page suivante :

Les scripts d’initialisation stockés dans les fichiers d’espace de travail ont un comportement particulier. Vous pouvez utiliser des fichiers d’espace de travail pour stocker et référencer des scripts d’initialisation dans n’importe quelle version de Databricks Runtime. Consultez l’article Stocker les scripts d’initialisation dans des fichiers d’espace de travail.

Remarque

Dans Databricks Runtime 14.0 et versions ultérieures, le répertoire de travail actuel (CWD) par défaut pour le code exécuté localement est le répertoire contenant le notebook ou le script en cours d'exécution. Il s’agit d’un changement de comportement de Databricks Runtime 13.3 LTS et versions antérieures. Consultez Quel est le répertoire de travail actuel par défaut ?.

Limitations

Vous trouverez la liste complète des limitations des fichiers d’espace de travail dans Limitations des fichiers d’espace de travail.

Limite de la taille du fichier

Les fichiers d’un espace de travail individuel ne doivent pas dépasser 500 Mo.

Les utilisateurs peuvent télécharger des fichiers d’une taille maximale de 500 Mo à partir de l’interface utilisateur. La taille maximale des fichiers autorisée lors de l’écriture à partir d’un cluster est de 256 Mo.

Versions de Databricks Runtime pour les fichiers dans des dossiers Git avec un cluster avec Azure Databricks Container Services

Sur des clusters exécutant Databricks Runtime 11.3 LTS et versions ultérieures, les paramètres par défaut vous permettent d’utiliser des fichiers d’espace de travail dans des dossiers Git avec Azure Databricks Container Services (DCS).

Sur des clusters exécutant Databricks Runtime versions 10.4 LTS et 9.1 LTS, vous devez configurer le Dockerfile pour accéder aux fichiers d’espace de travail dans les dossiers Git sur un cluster avec DCS. Consultez les fichiers dockerfile suivants pour connaître la version de Databricks Runtime souhaitée :

Consultez Personnaliser des conteneurs avec les services de conteneur Databricks.

Activer les fichiers d’espace de travail

Pour activer la prise en charge des fichiers non-notebooks dans votre espace de travail Databricks, appelez l’API REST /api/2.0/workspace-conf à partir d’un notebook ou d’un autre environnement avec accès à votre espace de travail Databricks. Les fichiers d’espace de travail sont activés par défaut.

Pour activer ou réactiver la prise en charge des fichiers non-notebooks dans votre espace de travail Databricks, appelez /api/2.0/workspace-conf et obtenez la valeur de la clé enableWorkspaceFileSystem. Si elle est définie sur true, les fichiers non-notebooks sont déjà activés pour votre espace de travail.

L’exemple suivant montre comment appeler cette API à partir d’un notebook pour vérifier si les fichiers de l’espace de travail sont désactivés et, le cas échéant, les réactiver.

Exemple : le notebook pour réactiver la prise en charge des fichiers d’espace de travail Databricks

Obtenir le notebook