Partager via


Utiliser dbx pour synchroniser des fichiers locaux avec des espaces de travail distants en temps réel

Important

Cette documentation a été supprimée et peut ne pas être mise à jour.

Databricks recommande qu’au lieu de dbx sync, vous utilisiez les versions 0.205 ou ultérieures de l’interface CLI Databricks, qui incluent des fonctionnalités similaires à celles de la commande dbx sync à travers databricks sync.

L’extension Databricks pour Visual Studio Code inclut également des fonctionnalités similaires à celles intégrées à dbx sync l’IDE Visual Studio Code. Notez que dbx sync vous pouvez synchroniser les modifications de fichier d’un ordinateur de développement local vers des dossiers DBFS, des emplacements d’espace de travail et des dossiers Git Databricks dans vos espaces de travail Azure Databricks. L'extension Databricks pour Visual Studio Code prend en charge la synchronisation des modifications de fichiers exclusivement avec les fichiers utilisateur de l'espace de travail (/Users) et les dossiers Git de Databricks (/Repos).

Remarque

Cet article couvre dbx par Databricks Labs, qui est fourni tel quel et qui n’est pas pris en charge par Databricks par le biais des canaux de support technique client. Pour toute question ou demande de fonctionnalité, vous pouvez utiliser la page Problèmes du dépôt databrickslabs/dbx sur GitHub.

Vous pouvez effectuer une synchronisation en temps réel des modifications apportées aux fichiers sur votre ordinateur de développement local avec leurs fichiers correspondants dans vos espaces de travail Azure Databricks à l’aide de dbx by Databricks Labs. Ces fichiers d’espace de travail peuvent se trouver dans des dossiers DBFS ou Databricks Git.

La synchronisation de fichiers en temps réel avec dbx (également appelée dbx sync) est utile dans les scénarios de développement de code rapide. Par exemple, vous pouvez utiliser un environnement de développement intégré local (IDE) pour des fonctionnalités de productivité telles que la mise en surbrillance de la syntaxe, l'auto-complétion intelligente du code, l'analyse du code ainsi que le test et le débogage. Vous pouvez ensuite accéder immédiatement à votre espace de travail et exécuter votre code mis à jour.

Vous pouvez utiliser dbx sync par lui-même, avec des travaux automatisés ou avec un IDE.

dbx sync workflows de développement

Il existe deux flux de travail de développement pour dbx sync, un avec DBFS et un autre avec des dossiers Git Databricks.

Le flux de travail de développement classique avec dbx sync et DBFS est :

  1. Identifiez un répertoire local qui contient les fichiers que vous souhaitez synchroniser avec DBFS.
  2. Identifiez le chemin d’accès dans DBFS que vous souhaitez synchroniser avec votre répertoire local (ou laissez dbx sync créer un chemin DBFS par défaut pour vous).
  3. Exécutez dbx sync dbfs pour synchroniser votre répertoire local avec le chemin DBFS. dbx sync commence à regarder votre répertoire local pour toute modification de fichier.
  4. Apportez des modifications aux fichiers dans votre répertoire local en fonction des besoins. dbx sync applique ces modifications aux fichiers correspondants dans le chemin DBFS en temps réel.

Le workflow de développement classique avec dbx sync et les dossiers Git Databricks est le suivant :

  1. Créez un référentiel avec un fournisseur Git pris en charge par les dossiers Git Databricks, si vous n’avez pas encore de référentiel disponible.
  2. Clonez votre dépôt dans votre espace de travail Azure Databricks.
  3. Clonez votre dépôt dans votre ordinateur de développement local.
  4. Exécutez dbx sync repo pour associer votre dépôt cloné local au dépôt cloné de votre espace de travail. dbx sync commence à regarder votre répertoire local pour toute modification de fichier.
  5. Apportez des modifications aux fichiers dans votre dépôt cloné local en fonction des besoins. dbx sync applique ces modifications aux fichiers correspondants dans les dossiers Git Databricks en temps réel.
  6. Envoyez régulièrement des fichiers mis à jour à partir du dépôt cloné dans votre espace de travail vers votre fournisseur Git, afin que le référentiel reste à jour avec votre fournisseur Git.

Important

dbx sync effectue uniquement une synchronisation unidirectionnelle et en temps réel des modifications de fichiers de votre ordinateur de développement local vers votre espace de travail distant. Par conséquent, Databricks ne vous recommande pas d’initier des modifications dans votre espace de travail Azure Databricks aux fichiers surveillés par dbx sync. Si vous devez apporter de telles modifications de fichier initiées par l’espace de travail, vous devez également effectuer les opérations suivantes :

  • Pour les modifications de fichier dans DBFS, apportez manuellement les modifications correspondantes aux fichiers locaux.
  • Pour les modifications de fichier dans les dossiers Git Databricks, envoyez les modifications de fichier de votre espace de travail à votre fournisseur Git. Ensuite, sur votre ordinateur de développement local, extrayez ces modifications de fichier à partir de votre fournisseur Git.

Spécifications

Si vous souhaitez utiliser dbx sync des dossiers Git Databricks, votre espace de travail Azure Databricks doit répondre aux exigences suivantes :

  • Un clone de votre référentiel avec votre fournisseur Git, bien qu’il n’est pas obligatoire, est suggéré.

Sur votre ordinateur de développement local, vous devez avoir installé les éléments suivants :

  • Python version 3.8 ou ultérieure. Pour vérifier si Python est installé et vérifier la version de Python installée, exécutez python --version votre terminal ou PowerShell.

    python --version
    

    Remarque

    Certaines installations de python peuvent nécessiter l’utilisation de python3 au lieu de python. Si c’est le cas, remplacez-le pythonpython3 dans l’ensemble de cet article.

  • pip. Pour vérifier si pip elle est installée et vérifier votre version installée pip , exécutez pip --version ou python -m pip --version.

    pip --version
    
    # Or...
    
    python -m pip --version
    

    Remarque

    Certaines installations de pip peuvent nécessiter l’utilisation de pip3 au lieu de pip. Si c’est le cas, remplacez-le pippip3 dans l’ensemble de cet article.

  • Version dbx 0.8.0 ou ultérieure. Pour vérifier si dbx elle est installée et pour vérifier votre version installée dbx , exécutez dbx --version. Pour effectuer l’installation dbx à partir de l’index de package Python (PyPI), exécutez pip install dbx ou python -m pip install dbx. (dbx inclut dbx sync.)

    # Check whether dbx is installed, and check its version.
    dbx --version
    
    # Install dbx.
    pip install dbx
    
    # Or...
    python -m pip install dbx
    

    Remarque

    Pour plus d’informations sur dbx, consultez dbx by Databricks Labs et la documentation dbx.

  • L’interface CLI Databricks version 0.18 ou antérieure, configurée avec l’authentification. L’interface CLI Databricks héritée (Databricks CLI version 0.17) est automatiquement installée lorsque vous installez dbx. Cette authentification peut être configurée sur votre ordinateur de développement local dans un des deux emplacements suivants (ou les deux) :

    • Dans les variables d’environnement DATABRICKS_HOST et DATABRICKS_TOKEN (à partir de l’l’interface CLI Databricks héritée version 0.8.0).
    • Dans un profil de configuration Azure Databricks de votre fichier .databrickscfg.

    dbx recherche les informations d’identification d’authentification dans ces deux emplacements, respectivement. dbx utilise uniquement le premier ensemble d’informations d’identification correspondantes qu’il trouve.

    Remarque

    Si vous utilisez un .databrickscfg fichier, dbx sync recherche dans ce fichier un profil de configuration nommé DEFAULT par défaut. Pour spécifier un autre profil, utilisez l’option --profile lorsque vous exécutez la dbx sync commande, plus loin dans cet article.

    dbx ne prend pas en charge l’utilisation d’un fichier .netrc pour l’authentification.

  • Si vous souhaitez utiliser dbx sync des dossiers Git Databricks, un clone local de votre dépôt avec votre fournisseur Git, bien qu’il n’est pas nécessaire, est suggéré. Pour effectuer un clone local, consultez la documentation de votre fournisseur Git.

Utiliser DBFS avec dbx sync

  1. À partir du terminal ou de PowerShell sur votre ordinateur de développement local, accédez au répertoire qui contient les fichiers que vous souhaitez synchroniser avec DBFS dans votre espace de travail Azure Databricks.

  2. Exécutez la commande dbx Sync pour synchroniser votre répertoire local avec DBFS dans votre espace de travail, comme suit. (N’oubliez pas le point (.) à la fin, qui représente votre répertoire actif.)

    dbx sync dbfs --source .
    

    Conseil / Astuce

    Pour spécifier un autre répertoire source, remplacez le point (.) par un chemin différent.

    Remarque

    Si l’erreur Error: No such command 'sync' s’affiche, votre installation dbx est probablement obsolète. Pour résoudre ce problème, exécutez pip install --upgrade dbx==<version> ou python -m pip install --upgrade dbx==version, où <version> est la dernière version de dbx. Ce numéro de version se trouve sur la page web PyPI pour dbx.

    pip install --upgrade dbx==<version>
    
    # Or...
    python -m pip install --upgrade dbx==version
    
  3. dbx sync commence la synchronisation des fichiers dans votre répertoire local actuel avec des fichiers dans le chemin DBFS suivant dans votre espace de travail. dbx sync confirme cela en imprimant Target base path suivi du chemin DBFS, par exemple :

    /tmp/users/<your-Databricks-username>/<local-directory-name>
    

    Conseil / Astuce

    Pour spécifier un nom d'utilisateur ou un chemin DBFS différent, indiquez respectivement les options --user et --dest lorsque vous exécutez dbx sync.

  4. Apportez des modifications à vos fichiers locaux, si nécessaire.

    Important

    Vous devez conserver votre terminal ou PowerShell ouvert afin que dbx sync continue de synchroniser. Si vous fermez votre terminal ou PowerShell, dbx sync arrête de surveiller les modifications de fichiers et arrête la synchronisation. Pour reprendre la synchronisation des modifications de fichier, répétez cette procédure à partir du début.

  5. Si nécessaire, vérifiez les modifications apportées à votre fichier dans le chemin d’accès précédent dans DBFS dans votre espace de travail.

Utiliser des dossiers Git Databricks avec dbx sync

  1. À partir du terminal ou de PowerShell sur votre ordinateur de développement local, accédez au répertoire racine qui contient le clone du référentiel avec votre fournisseur Git.

  2. Dans votre espace de travail Azure Databricks, identifiez le nom du dossier Git Databricks vers lequel vous souhaitez synchroniser votre dépôt cloné local. Vous trouverez ce nom de dépôt en cliquant sur les dossiers Git dans la barre latérale de votre espace de travail.

  3. Sur votre ordinateur de développement local, exécutez la commande dbx sync pour synchroniser votre dépôt cloné local vers les dossiers Git Databricks de votre espace de travail, comme suit, en <your-repo-name> remplaçant par le nom de votre dépôt dans les dossiers Git Databricks. (N’oubliez pas le point (.) à la fin, qui représente votre répertoire actif.)

    dbx sync repo -d <your-repo-name> --source .
    

    Conseil / Astuce

    Pour spécifier un autre répertoire source, remplacez le point (.) par un chemin différent.

    Remarque

    Si l’erreur Error: No such command 'sync' s’affiche, votre installation dbx est probablement obsolète. Pour résoudre ce problème, exécutez pip install --upgrade dbx==<version> ou python -m pip install --upgrade dbx==version, où <version> est la dernière version de dbx. Ce numéro de version se trouve sur la page web PyPI pour dbx.

    pip install --upgrade dbx==<version>
    
    # Or...
    python -m pip install --upgrade dbx==version
    
  4. dbx sync commence la synchronisation des fichiers dans votre référentiel cloné local avec des fichiers dans les dossiers Git Databricks de votre espace de travail. dbx sync confirme cela en imprimant Target base path suivi du chemin des dossiers Git Databricks, par exemple :

    /Repos/<your-Databricks-username>/<your-repo-name>
    

    Conseil / Astuce

    Pour spécifier un nom d’utilisateur différent ou un nom de dépôt différent, spécifiez respectivement les options --user et --dest-repo lorsque vous exécutez dbx sync.

  5. Apportez des modifications à vos fichiers locaux, si nécessaire.

    Important

    Vous devez conserver votre terminal ou PowerShell ouvert afin que dbx sync continue de synchroniser. Si vous fermez votre terminal ou PowerShell, dbx sync arrête de surveiller les modifications de fichiers et arrête la synchronisation. Pour reprendre la synchronisation des modifications de fichier, répétez cette procédure à partir du début.

  6. Si nécessaire, vérifiez les modifications apportées à votre fichier dans les dossiers Git Databricks dans votre espace de travail.

Ressources supplémentaires