Partager via


Utiliser dbx pour synchroniser en temps réel des fichiers locaux avec des espaces de travail distants

Important

Cette documentation a été mise hors service et peut ne pas être mise à jour.

Databricks recommande qu’au lieu de dbx sync, vous utilisez les versions de l’interface CLI Databricks 0.205 ou ultérieures, qui incluent des fonctionnalités similaires à dbx sync via la commande databricks sync.

L’extension Databricks pour Visual Studio Code inclut également une fonctionnalité similaire à dbx sync, intégrée à l’IDE Visual Studio Code. Remarquez que dbx sync peut synchroniser les modifications de fichiers d’un ordinateur de développement local vers DBFS, vers les emplacements d’espace de travail et vers Dossiers Git Databricks dans vos espaces de travail Azure Databricks. L’extension Databricks pour Visual Studio Code prend en charge la synchronisation des modifications du fichier uniquement pour les fichiers de l’utilisateur de l’espace de travail (/Users) et Dossiers Git Databricks (/Repos).

Remarque

Cet article couvre dbx par Databricks Labs, qui est fourni tel quel et qui n’est pas pris en charge par Databricks par le biais des canaux de support technique client. Pour toute question ou demande de fonctionnalité, vous pouvez utiliser la page Problèmes du dépôt databrickslabs/dbx sur GitHub.

Vous pouvez procéder à une synchronisation en temps réel des modifications apportées aux fichiers sur votre ordinateur de développement local avec leurs fichiers correspondants dans vos espaces de travail Azure Databricks à l’aide de dbx by Databricks Labs. Ces fichiers d’espace de travail peuvent se trouver dans DBFS ou dans Dossiers Git Databricks.

La synchronisation en temps réel de fichiers avec dbx (également appelée dbx sync) est particulièrement utile dans les scénarios de développement rapide de code. Par exemple, vous pouvez utiliser un environnement de développement intégré (IDE) local pour les fonctionnalités de productivité telles que la coloration syntaxique, la complétion de code intelligente, le linting de code, ainsi que les tests et le débogage. Vous pouvez alors accéder immédiatement à votre espace de travail et exécuter votre code mis à jour.

Vous pouvez utiliser dbx sync seul, avec des travaux automatisés ou avec un IDE.

Workflows de développement dbx sync

Deux workflows de développement sont disponibles pour dbx sync, l’un avec DBFS et l’autre avec Dossiers Git Databricks.

Le workflow de développement classique avec dbx sync et DBFS est le suivant :

  1. Identifiez un répertoire local contenant les fichiers que vous souhaitez synchroniser avec DBFS.
  2. Identifiez le chemin DBFS avec lequel vous souhaitez que votre répertoire local se synchronise (ou laissez dbx sync créer un chemin DBFS par défaut pour vous).
  3. Exécutez dbx sync dbfs pour synchroniser votre répertoire local avec le chemin DBFS. dbx sync commence à surveiller votre répertoire local pour détecter toute modification de fichier.
  4. Si nécessaire, apportez des modifications aux fichiers de votre répertoire local. dbx sync applique en temps réel ces modifications aux fichiers correspondants dans le chemin DBFS.

Le workflow de développement classique avec dbx sync et Dossiers Git Databricks est le suivant :

  1. Créez un référentiel avec un fournisseur Git pris en charge par Dossiers Git Databricks si vous n’avez pas encore de référentiel disponible.
  2. Clonez votre référentiel dans votre espace de travail Azure Databricks.
  3. Clonez votre référentiel sur votre ordinateur de développement local.
  4. Exécutez dbx sync repo pour associer votre référentiel cloné local à votre référentiel cloné de l’espace de travail. dbx sync commence à surveiller votre répertoire local pour détecter toute modification de fichier.
  5. Si nécessaire, apportez des modifications aux fichiers de votre référentiel cloné local. dbx sync applique en temps réel ces modifications aux fichiers correspondants dans Dossiers Git Databricks.
  6. Transférez régulièrement les fichiers mis à jour du référentiel cloné entre votre espace de travail et votre fournisseur Git, afin que le référentiel reste à jour par rapport à votre fournisseur Git.

Important

dbx sync effectue seulement une synchronisation unidirectionnelle et en temps réel des modifications de fichiers (de votre ordinateur de développement local vers votre espace de travail distant). Par conséquent, Databricks vous déconseille d’entamer des modifications dans votre espace de travail Azure Databricks sur des fichiers surveillés par dbx sync. Si vous devez apporter des modifications à des fichiers de l’espace de travail, vous devez également effectuer ce qui suit :

  • Pour les modifications de fichiers dans DBFS, effectuez manuellement les changements correspondants dans les fichiers locaux.
  • Pour les modifications de fichiers dans Dossiers Git Databricks, transmettez les changements de fichiers à votre fournisseur Git depuis votre espace de travail. Puis, sur votre ordinateur de développement local, extrayez ces modifications de fichiers depuis votre fournisseur Git.

Spécifications

Si vous souhaitez utiliser dbx sync avec Dossiers Git Databricks, votre espace de travail Azure Databricks doit est conforme à ce qui suit :

  • Un clone de votre référentiel avec votre fournisseur Git peut être créé, même si ce n’est pas une obligation.

Sur votre ordinateur de développement local, les éléments suivants installés :

  • Python version 3.8 ou ultérieure. Pour vérifier si Python est installé, et identifier la version installée, exécutez python --version à partir de votre terminal ou de PowerShell.

    python --version
    

    Notes

    Certaines installations peuvent python nécessiter que vous utilisiez python3 au lieu de python. Dans ce cas, remplacez python par python3 tout au long de cet article.

  • pip. Pour vérifier si pip est installé et identifier la version de pip que vous avez installée, exécutez pip --version ou python -m pip --version.

    pip --version
    
    # Or...
    
    python -m pip --version
    

    Notes

    Certaines installations peuvent pip nécessiter que vous utilisiez pip3 au lieu de pip. Dans ce cas, remplacez pip par pip3 tout au long de cet article.

  • Version dbx 0.8.0 ou ultérieure. Pour vérifier si dbx est installé, et identifier la version de dbx que vous avez installée, exécutez dbx --version. Pour installer dbx via PyPI (Python Package Index), exécutez pip install dbx ou python -m pip install dbx. (dbx inclut dbx sync.)

    # Check whether dbx is installed, and check its version.
    dbx --version
    
    # Install dbx.
    pip install dbx
    
    # Or...
    python -m pip install dbx
    

    Notes

    Pour plus d’informations sur dbx, consultez dbx by Databricks Labs et la documentation dbx.

  • L’interface CLI Databricks version 0.18 ou antérieure, configurée avec l’authentification. L’interface CLI Databricks héritée (Databricks CLI version 0.17) est automatiquement installée lorsque vous installez dbx. Cette authentification peut être configurée sur votre ordinateur de développement local dans un des deux emplacements suivants (ou les deux) :

    • Dans les variables d’environnement DATABRICKS_HOST et DATABRICKS_TOKEN (à partir de l’l’interface CLI Databricks héritée version 0.8.0).
    • Dans un profil de configuration Azure Databricks de votre fichier .databrickscfg.

    dbx recherche les informations d’identification d’authentification dans ces deux emplacements, respectivement. dbx utilise uniquement le premier ensemble d’informations d’identification correspondantes qu’il trouve.

    Notes

    Si vous utilisez un fichier .databrickscfg, dbx sync recherche dans ce fichier un profil de configuration nommé DEFAULT par défaut. Pour spécifier un autre profil, utilisez l’option --profile au moment de l’exécution de la commande dbx sync, plus loin dans cet article.

    dbx ne prend pas en charge l’utilisation d’un fichier .netrc pour l’authentification.

  • Si vous souhaitez utiliser dbx sync avec Dossiers Git Databricks, un clone local de votre référentiel avec votre fournisseur Git peut être créé, même si ce n’est pas une obligation. Pour créer un clone local, consultez la documentation de votre fournisseur Git.

Utiliser DBFS avec dbx sync

  1. À partir du terminal ou de PowerShell sur votre ordinateur de développement local, accédez au répertoire qui contient les fichiers que vous souhaitez synchroniser avec DBFS dans votre espace de travail Azure Databricks.

  2. Exécutez la commande dbx sync pour synchroniser votre répertoire local avec DBFS dans votre espace de travail, comme suit. (N’oubliez pas le point (.) à la fin. Celui-ci représente votre répertoire actuel.)

    dbx sync dbfs --source .
    

    Conseil

    Pour spécifier un autre répertoire source, remplacez le point (.) par un autre chemin.

    Notes

    Si l’erreur Error: No such command 'sync' s’affiche, votre installation de dbx est probablement obsolète. Pour résoudre ce problème, exécutez pip install --upgrade dbx==<version> ou python -m pip install --upgrade dbx==version, où <version> désigne la dernière version de dbx. Ce numéro de version se trouve sur la page web PyPI de dbx.

    pip install --upgrade dbx==<version>
    
    # Or...
    python -m pip install --upgrade dbx==version
    
  3. dbx sync commence à synchroniser les fichiers de votre répertoire local actuel avec les fichiers du chemin DBFS suivant de votre espace de travail. dbx sync confirme en imprimant Target base path suivi du chemin DBFS, par exemple :

    /tmp/users/<your-Databricks-username>/<local-directory-name>
    

    Conseil

    Pour spécifier un autre nom d’utilisateur ou un autre chemin DBFS, spécifiez respectivement les options --user et --dest lorsque vous exécutez dbx sync.

  4. Si nécessaire, apportez des modifications à vos fichiers locaux.

    Important

    Vous devez laisser votre terminal ou PowerShell ouvert pour permettre à dbx sync de poursuivre la synchronisation. Si vous fermez votre terminal ou PowerShell, dbx sync cesse de surveiller les modifications de fichiers et arrête la synchronisation. Pour reprendre la synchronisation des modifications de fichiers, reprenez cette procédure du début.

  5. Si nécessaire, vérifiez vos modifications de fichiers dans le chemin DBFS précédent de votre espace de travail.

Utiliser Dossiers Git Databricks avec dbx sync

  1. À partir du terminal ou de PowerShell sur votre ordinateur de développement local, accédez au répertoire racine qui contient le clone du référentiel avec votre fournisseur Git.

  2. Dans votre espace de travail Azure Databricks, identifiez le nom du dossier Git Databricks avec lequel vous souhaitez synchroniser votre référentiel cloné local. Vous pouvez trouver le nom de ce référentiel en cliquant sur Dossiers Git dans la barre latérale de votre espace de travail.

  3. Sur votre ordinateur de développement local, exécutez la commande dbx sync pour synchroniser votre référentiel cloné local avec les référentiels Databricks de votre espace de travail comme suit, en remplaçant <your-repo-name> par le nom de votre référentiel dans Dossiers Git Databricks. (N’oubliez pas le point (.) à la fin. Celui-ci représente votre répertoire actuel.)

    dbx sync repo -d <your-repo-name> --source .
    

    Conseil

    Pour spécifier un autre répertoire source, remplacez le point (.) par un autre chemin.

    Notes

    Si l’erreur Error: No such command 'sync' s’affiche, votre installation de dbx est probablement obsolète. Pour résoudre ce problème, exécutez pip install --upgrade dbx==<version> ou python -m pip install --upgrade dbx==version, où <version> désigne la dernière version de dbx. Ce numéro de version se trouve sur la page web PyPI de dbx.

    pip install --upgrade dbx==<version>
    
    # Or...
    python -m pip install --upgrade dbx==version
    
  4. dbx sync commence à synchroniser les fichiers de votre référentiel cloné local avec les dossiers Git Databricks de votre espace de travail. dbx sync confirme en imprimant Target base path suivi du chemin Dossiers Git Databricks, par exemple :

    /Repos/<your-Databricks-username>/<your-repo-name>
    

    Conseil

    Pour spécifier un autre nom d’utilisateur ou un autre nom de référentiel, spécifiez respectivement les options --user et --dest-repo lorsque vous exécutez dbx sync.

  5. Si nécessaire, apportez des modifications à vos fichiers locaux.

    Important

    Vous devez laisser votre terminal ou PowerShell ouvert pour permettre à dbx sync de poursuivre la synchronisation. Si vous fermez votre terminal ou PowerShell, dbx sync cesse de surveiller les modifications de fichiers et arrête la synchronisation. Pour reprendre la synchronisation des modifications de fichiers, reprenez cette procédure du début.

  6. Si nécessaire, vérifiez vos modifications de fichiers dans Dossiers Git Databricks dans votre espace de travail.

Ressources supplémentaires