Notes
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Important
Cette documentation a été supprimée et peut ne pas être mise à jour.
Databricks recommande qu’au lieu de dbx sync
, vous utilisiez les versions 0.205 ou ultérieures de l’interface CLI Databricks, qui incluent des fonctionnalités similaires à celles de la commande dbx sync
à travers databricks sync
.
L’extension Databricks pour Visual Studio Code inclut également des fonctionnalités similaires à celles intégrées à dbx sync
l’IDE Visual Studio Code. Notez que dbx sync
vous pouvez synchroniser les modifications de fichier d’un ordinateur de développement local vers des dossiers DBFS, des emplacements d’espace de travail et des dossiers Git Databricks dans vos espaces de travail Azure Databricks. L'extension Databricks pour Visual Studio Code prend en charge la synchronisation des modifications de fichiers exclusivement avec les fichiers utilisateur de l'espace de travail (/Users
) et les dossiers Git de Databricks (/Repos
).
Remarque
Cet article couvre dbx
par Databricks Labs, qui est fourni tel quel et qui n’est pas pris en charge par Databricks par le biais des canaux de support technique client. Pour toute question ou demande de fonctionnalité, vous pouvez utiliser la page Problèmes du dépôt databrickslabs/dbx sur GitHub.
Vous pouvez effectuer une synchronisation en temps réel des modifications apportées aux fichiers sur votre ordinateur de développement local avec leurs fichiers correspondants dans vos espaces de travail Azure Databricks à l’aide de dbx by Databricks Labs. Ces fichiers d’espace de travail peuvent se trouver dans des dossiers DBFS ou Databricks Git.
La synchronisation de fichiers en temps réel avec dbx
(également appelée dbx sync
) est utile dans les scénarios de développement de code rapide. Par exemple, vous pouvez utiliser un environnement de développement intégré local (IDE) pour des fonctionnalités de productivité telles que la mise en surbrillance de la syntaxe, l'auto-complétion intelligente du code, l'analyse du code ainsi que le test et le débogage. Vous pouvez ensuite accéder immédiatement à votre espace de travail et exécuter votre code mis à jour.
Vous pouvez utiliser dbx sync
par lui-même, avec des travaux automatisés ou avec un IDE.
dbx sync
workflows de développement
Il existe deux flux de travail de développement pour dbx sync
, un avec DBFS et un autre avec des dossiers Git Databricks.
Le flux de travail de développement classique avec dbx sync
et DBFS est :
- Identifiez un répertoire local qui contient les fichiers que vous souhaitez synchroniser avec DBFS.
- Identifiez le chemin d’accès dans DBFS que vous souhaitez synchroniser avec votre répertoire local (ou laissez
dbx sync
créer un chemin DBFS par défaut pour vous). - Exécutez
dbx sync dbfs
pour synchroniser votre répertoire local avec le chemin DBFS.dbx sync
commence à regarder votre répertoire local pour toute modification de fichier. - Apportez des modifications aux fichiers dans votre répertoire local en fonction des besoins.
dbx sync
applique ces modifications aux fichiers correspondants dans le chemin DBFS en temps réel.
Le workflow de développement classique avec dbx sync
et les dossiers Git Databricks est le suivant :
- Créez un référentiel avec un fournisseur Git pris en charge par les dossiers Git Databricks, si vous n’avez pas encore de référentiel disponible.
- Clonez votre dépôt dans votre espace de travail Azure Databricks.
- Clonez votre dépôt dans votre ordinateur de développement local.
- Exécutez
dbx sync repo
pour associer votre dépôt cloné local au dépôt cloné de votre espace de travail.dbx sync
commence à regarder votre répertoire local pour toute modification de fichier. - Apportez des modifications aux fichiers dans votre dépôt cloné local en fonction des besoins.
dbx sync
applique ces modifications aux fichiers correspondants dans les dossiers Git Databricks en temps réel. - Envoyez régulièrement des fichiers mis à jour à partir du dépôt cloné dans votre espace de travail vers votre fournisseur Git, afin que le référentiel reste à jour avec votre fournisseur Git.
Important
dbx sync
effectue uniquement une synchronisation unidirectionnelle et en temps réel des modifications de fichiers de votre ordinateur de développement local vers votre espace de travail distant. Par conséquent, Databricks ne vous recommande pas d’initier des modifications dans votre espace de travail Azure Databricks aux fichiers surveillés par dbx sync
. Si vous devez apporter de telles modifications de fichier initiées par l’espace de travail, vous devez également effectuer les opérations suivantes :
- Pour les modifications de fichier dans DBFS, apportez manuellement les modifications correspondantes aux fichiers locaux.
- Pour les modifications de fichier dans les dossiers Git Databricks, envoyez les modifications de fichier de votre espace de travail à votre fournisseur Git. Ensuite, sur votre ordinateur de développement local, extrayez ces modifications de fichier à partir de votre fournisseur Git.
Spécifications
Si vous souhaitez utiliser dbx sync
des dossiers Git Databricks, votre espace de travail Azure Databricks doit répondre aux exigences suivantes :
- Un clone de votre référentiel avec votre fournisseur Git, bien qu’il n’est pas obligatoire, est suggéré.
Sur votre ordinateur de développement local, vous devez avoir installé les éléments suivants :
Python version 3.8 ou ultérieure. Pour vérifier si Python est installé et vérifier la version de Python installée, exécutez
python --version
votre terminal ou PowerShell.python --version
Remarque
Certaines installations de
python
peuvent nécessiter l’utilisation depython3
au lieu depython
. Si c’est le cas, remplacez-lepython
python3
dans l’ensemble de cet article.pip. Pour vérifier si
pip
elle est installée et vérifier votre version installéepip
, exécutezpip --version
oupython -m pip --version
.pip --version # Or... python -m pip --version
Remarque
Certaines installations de
pip
peuvent nécessiter l’utilisation depip3
au lieu depip
. Si c’est le cas, remplacez-lepip
pip3
dans l’ensemble de cet article.Version dbx 0.8.0 ou ultérieure. Pour vérifier si
dbx
elle est installée et pour vérifier votre version installéedbx
, exécutezdbx --version
. Pour effectuer l’installationdbx
à partir de l’index de package Python (PyPI), exécutezpip install dbx
oupython -m pip install dbx
. (dbx
inclut dbx sync.)# Check whether dbx is installed, and check its version. dbx --version # Install dbx. pip install dbx # Or... python -m pip install dbx
Remarque
Pour plus d’informations sur
dbx
, consultez dbx by Databricks Labs et la documentation dbx.L’interface CLI Databricks version 0.18 ou antérieure, configurée avec l’authentification. L’interface CLI Databricks héritée (Databricks CLI version 0.17) est automatiquement installée lorsque vous installez
dbx
. Cette authentification peut être configurée sur votre ordinateur de développement local dans un des deux emplacements suivants (ou les deux) :- Dans les variables d’environnement
DATABRICKS_HOST
etDATABRICKS_TOKEN
(à partir de l’l’interface CLI Databricks héritée version 0.8.0). - Dans un profil de configuration Azure Databricks de votre fichier
.databrickscfg
.
dbx
recherche les informations d’identification d’authentification dans ces deux emplacements, respectivement.dbx
utilise uniquement le premier ensemble d’informations d’identification correspondantes qu’il trouve.Remarque
Si vous utilisez un
.databrickscfg
fichier,dbx sync
recherche dans ce fichier un profil de configuration nomméDEFAULT
par défaut. Pour spécifier un autre profil, utilisez l’option--profile
lorsque vous exécutez ladbx sync
commande, plus loin dans cet article.dbx
ne prend pas en charge l’utilisation d’un fichier .netrc pour l’authentification.- Dans les variables d’environnement
Si vous souhaitez utiliser
dbx sync
des dossiers Git Databricks, un clone local de votre dépôt avec votre fournisseur Git, bien qu’il n’est pas nécessaire, est suggéré. Pour effectuer un clone local, consultez la documentation de votre fournisseur Git.
Utiliser DBFS avec dbx sync
À partir du terminal ou de PowerShell sur votre ordinateur de développement local, accédez au répertoire qui contient les fichiers que vous souhaitez synchroniser avec DBFS dans votre espace de travail Azure Databricks.
Exécutez la commande dbx Sync pour synchroniser votre répertoire local avec DBFS dans votre espace de travail, comme suit. (N’oubliez pas le point (
.
) à la fin, qui représente votre répertoire actif.)dbx sync dbfs --source .
Conseil / Astuce
Pour spécifier un autre répertoire source, remplacez le point (
.
) par un chemin différent.Remarque
Si l’erreur
Error: No such command 'sync'
s’affiche, votre installationdbx
est probablement obsolète. Pour résoudre ce problème, exécutezpip install --upgrade dbx==<version>
oupython -m pip install --upgrade dbx==version
, où<version>
est la dernière version dedbx
. Ce numéro de version se trouve sur la page web PyPI pour dbx.pip install --upgrade dbx==<version> # Or... python -m pip install --upgrade dbx==version
dbx sync
commence la synchronisation des fichiers dans votre répertoire local actuel avec des fichiers dans le chemin DBFS suivant dans votre espace de travail.dbx sync
confirme cela en imprimantTarget base path
suivi du chemin DBFS, par exemple :/tmp/users/<your-Databricks-username>/<local-directory-name>
Conseil / Astuce
Pour spécifier un nom d'utilisateur ou un chemin DBFS différent, indiquez respectivement les options
--user
et--dest
lorsque vous exécutezdbx sync
.Apportez des modifications à vos fichiers locaux, si nécessaire.
Important
Vous devez conserver votre terminal ou PowerShell ouvert afin que
dbx sync
continue de synchroniser. Si vous fermez votre terminal ou PowerShell,dbx sync
arrête de surveiller les modifications de fichiers et arrête la synchronisation. Pour reprendre la synchronisation des modifications de fichier, répétez cette procédure à partir du début.Si nécessaire, vérifiez les modifications apportées à votre fichier dans le chemin d’accès précédent dans DBFS dans votre espace de travail.
Utiliser des dossiers Git Databricks avec dbx sync
À partir du terminal ou de PowerShell sur votre ordinateur de développement local, accédez au répertoire racine qui contient le clone du référentiel avec votre fournisseur Git.
Dans votre espace de travail Azure Databricks, identifiez le nom du dossier Git Databricks vers lequel vous souhaitez synchroniser votre dépôt cloné local. Vous trouverez ce nom de dépôt en cliquant sur les dossiers Git dans la barre latérale de votre espace de travail.
Sur votre ordinateur de développement local, exécutez la commande dbx sync pour synchroniser votre dépôt cloné local vers les dossiers Git Databricks de votre espace de travail, comme suit, en
<your-repo-name>
remplaçant par le nom de votre dépôt dans les dossiers Git Databricks. (N’oubliez pas le point (.
) à la fin, qui représente votre répertoire actif.)dbx sync repo -d <your-repo-name> --source .
Conseil / Astuce
Pour spécifier un autre répertoire source, remplacez le point (
.
) par un chemin différent.Remarque
Si l’erreur
Error: No such command 'sync'
s’affiche, votre installationdbx
est probablement obsolète. Pour résoudre ce problème, exécutezpip install --upgrade dbx==<version>
oupython -m pip install --upgrade dbx==version
, où<version>
est la dernière version dedbx
. Ce numéro de version se trouve sur la page web PyPI pour dbx.pip install --upgrade dbx==<version> # Or... python -m pip install --upgrade dbx==version
dbx sync
commence la synchronisation des fichiers dans votre référentiel cloné local avec des fichiers dans les dossiers Git Databricks de votre espace de travail.dbx sync
confirme cela en imprimantTarget base path
suivi du chemin des dossiers Git Databricks, par exemple :/Repos/<your-Databricks-username>/<your-repo-name>
Conseil / Astuce
Pour spécifier un nom d’utilisateur différent ou un nom de dépôt différent, spécifiez respectivement les options
--user
et--dest-repo
lorsque vous exécutezdbx sync
.Apportez des modifications à vos fichiers locaux, si nécessaire.
Important
Vous devez conserver votre terminal ou PowerShell ouvert afin que
dbx sync
continue de synchroniser. Si vous fermez votre terminal ou PowerShell,dbx sync
arrête de surveiller les modifications de fichiers et arrête la synchronisation. Pour reprendre la synchronisation des modifications de fichier, répétez cette procédure à partir du début.Si nécessaire, vérifiez les modifications apportées à votre fichier dans les dossiers Git Databricks dans votre espace de travail.
Ressources supplémentaires
- Documentation dbx
- Documentation de synchronisation dbx
- Référentiel databrickslabs/dbx sur GitHub
- Limitations de dbx