Freigeben über


Verwenden von dbx zum Synchronisieren lokaler Dateien mit Remotearbeitsbereichen in Echtzeit

Wichtig

Diese Dokumentation wurde eingestellt und kann nicht aktualisiert werden.

Databricks empfiehlt, anstelle von dbx syncdie Databricks CLI-Versionen 0.205 oder höherzu verwenden, die Funktionen wie dbx sync über den Befehl databricks sync enthält.

Die Databricks-Erweiterung für Visual Studio Code enthält auch Funktionen, die dbx sync ähneln, die in die Visual Studio Code IDE integriert sind. Beachten Sie außerdem, dass dbx sync Dateiänderungen von einem lokalen Entwicklungscomputer mit DBFS, Arbeitsbereichsspeicherorten undDatabricks Git-Ordnern in Ihren Azure Databricks-Arbeitsbereichen synchronisieren kann. Die Databricks-Erweiterung für Visual Studio Code unterstützt die Synchronisierung von Dateiänderungen nur für Arbeitsbereichsbenutzerdateien (/Users) und Databricks Git-Ordner (/Repos).

Anmerkung

Dieser Artikel behandelt dbx von Databricks Labs, das so wie es ist bereitgestellt wird und nicht von Databricks über Kanäle des technischen Supports von Kunden unterstützt wird. Fragen und Funktionsanfragen können über die Seite Issues des databrickslabs/dbx-Repository auf GitHub mitgeteilt werden.

Sie können die Echtzeitsynchronisierung von Änderungen an Dateien auf Ihrem lokalen Entwicklungscomputer mit den entsprechenden Dateien in Ihren Azure Databricks-Arbeitsbereichen durchführen, indem Sie dbx- von Databricks Labs verwenden. Diese Arbeitsbereichsdateien können sich in DBFS- oder in Databricks Git-Ordnernbefinden.

Die Echtzeitdateisynchronisierung mit dbx (auch als dbx syncbezeichnet) ist bei schnellen Codeentwicklungsszenarien nützlich. Sie können z. B. eine lokale integrierte Entwicklungsumgebung (IDE) für Produktivitätsfeatures verwenden, z. B. Syntaxmarkierung, Smart Code-Abschluss, Code-Linting und Testen und Debuggen. Sie können dann sofort zu Ihrem Arbeitsbereich wechseln und den aktualisierten Code ausführen.

Sie können dbx sync allein verwenden, mit automatisierten Aufträgenoder mit einer IDE.

dbx sync Entwicklungsworkflows

Es gibt zwei Entwicklungsworkflows für dbx sync, eine mit DBFS und eine mit Databricks Git-Ordnern.

Der typische Entwicklungsworkflow mit dbx sync und DBFS ist:

  1. Identifizieren Sie ein lokales Verzeichnis, das die Dateien enthält, die Sie mit DBFS synchronisieren möchten.
  2. Identifizieren Sie den Pfad in DBFS, mit dem Ihr lokales Verzeichnis synchronisiert werden soll (oder lassen Sie dbx sync einen Standard-DBFS-Pfad für Sie erstellen).
  3. Führen Sie dbx sync dbfs aus, um Ihr lokales Verzeichnis mit dem DBFS-Pfad zu synchronisieren. dbx sync beginnt, Ihr lokales Verzeichnis auf Dateiänderungen zu überwachen.
  4. Nehmen Sie nach Bedarf Änderungen an Dateien in Ihrem lokalen Verzeichnis vor. dbx sync wendet diese Änderungen auf die entsprechenden Dateien im DBFS-Pfad in Echtzeit an.

Der typische Entwicklungsworkflow mit dbx sync- und Databricks-Git-Ordnern ist:

  1. Erstellen Sie ein Repository mit einem Git-Anbieter, der von Databricks Git-Ordnern unterstützt wird, wenn noch kein Repository verfügbar ist.
  2. Klonen Sie Ihr Repository in Ihren Azure Databricks-Arbeitsbereich.
  3. Klonen Sie Ihr Repository in Ihren lokalen Entwicklungscomputer.
  4. Führen Sie dbx sync repo aus, um Ihr lokal geklontes Repository mit dem geklonten Repository Ihres Arbeitsbereichs zu verknüpfen. dbx sync beginnt, Ihr lokales Verzeichnis auf Dateiänderungen zu überwachen.
  5. Nehmen Sie nach Bedarf Änderungen an Dateien in Ihrem lokalen geklonten Repository vor. dbx sync wendet diese Änderungen auf die entsprechenden Dateien in Databricks Git-Ordnern in Echtzeit an.
  6. Verschieben Sie in regelmäßigen Abständen aktualisierte Dateien aus dem geklonten Repository in Ihrem Arbeitsbereich an Ihren Git-Anbieter, damit das Repository mit Ihrem Git-Anbieter auf dem neuesten Stand bleibt.

Wichtig

dbx sync führt nur eine unidirektionale Echtzeitsynchronisierung von Dateiänderungen von Ihrem lokalen Entwicklungscomputer zu Ihrem Remotearbeitsbereich aus. Daher empfiehlt Databricks nicht, Änderungen in Ihrem Azure Databricks-Arbeitsbereich in Dateien zu initiieren, die von dbx syncüberwacht werden. Wenn Sie solche vom Arbeitsbereich initiierten Dateiänderungen vornehmen müssen, müssen Sie auch die folgenden Schritte ausführen:

  • Nehmen Sie bei Dateiänderungen in DBFS die entsprechenden Änderungen an den lokalen Dateien manuell vor.
  • Für Dateiänderungen in Den Git-Ordnern von Databricks verschieben Sie die Dateiänderungen von Ihrem Arbeitsbereich an Ihren Git-Anbieter. Rufen Sie dann auf Ihrem lokalen Entwicklungscomputer diese Dateiänderungen von Ihrem Git-Anbieter ab.

Anforderungen

Wenn Sie dbx sync mit Databricks Git-Ordnern verwenden möchten, muss Ihr Azure Databricks-Arbeitsbereich die folgende Anforderung erfüllen:

  • Ein -Klon Ihres Repositorys bei Ihrem Git-Anbieter wird empfohlen, obwohl er nicht erforderlich ist.

Auf Ihrem lokalen Entwicklungscomputer muss Folgendes installiert sein:

  • Python Version 3.8 oder höher. Um zu überprüfen, ob Python installiert ist und um Ihre installierte Python-Version zu überprüfen, führen Sie python --version in Ihrem Terminal oder PowerShell aus.

    python --version
    

    Anmerkung

    Einige Installationen von python erfordern möglicherweise, dass Sie python3 anstelle von pythonverwenden. Ersetzen Sie in diesem Fall python durch python3 in diesem Artikel.

  • pip. Führen Sie pip oder pipaus, um zu überprüfen, ob pip --version installiert ist, und um die installierte python -m pip --version-Version zu überprüfen.

    pip --version
    
    # Or...
    
    python -m pip --version
    

    Anmerkung

    Einige Installationen von pip erfordern möglicherweise, dass Sie pip3 anstelle von pipverwenden. Ersetzen Sie in diesem Fall pip durch pip3 in diesem Artikel.

  • dbx Version 0.8.0 oder höher. Führen Sie dbxaus, um zu überprüfen, ob dbx installiert ist, und um die installierte dbx --version Version zu überprüfen. Um dbx aus dem Python-Paketindex (PyPI) zu installieren, führen Sie pip install dbx oder python -m pip install dbxaus. (dbx enthält dbx sync.)

    # Check whether dbx is installed, and check its version.
    dbx --version
    
    # Install dbx.
    pip install dbx
    
    # Or...
    python -m pip install dbx
    

    Anmerkung

    Weitere Informationen zu dbxfinden Sie in dbx von Databricks Labs und in der dbx-Dokumentation.

  • Version 0.18 oder niedriger der Databricks-Befehlszeilenschnittstelle mit eingerichteter Authentifizierung. Die ältere Databricks CLI (Databricks CLI Version 0.17) wird automatisch installiert, wenn Sie dbxinstallieren. Diese Authentifizierung kann auf Ihrem lokalen Entwicklungscomputer an einem oder beiden der folgenden Speicherorte eingerichtet werden:

    • Innerhalb der DATABRICKS_HOST- und DATABRICKS_TOKEN Umgebungsvariablen (beginnend mit älteren Databricks CLI Version 0.8.0).
    • In einem Azure Databricks--Konfigurationsprofil innerhalb Ihrer .databrickscfg Datei.

    dbx sucht an diesen beiden Speicherorten jeweils nach Anmeldeinformationen für die Authentifizierung. dbx verwendet nur den ersten Satz übereinstimmener Anmeldeinformationen, die gefunden werden.

    Anmerkung

    Wenn Sie eine .databrickscfg Datei verwenden, sucht dbx sync in dieser Datei standardmäßig nach einem Konfigurationsprofil mit dem Namen DEFAULT. Verwenden Sie zum Angeben eines anderen Profils die Option --profile, wenn Sie den Befehl dbx sync weiter unten in diesem Artikel ausführen.

    dbx unterstützt die Verwendung einer .netrc--Datei für die Authentifizierung nicht.

  • Wenn Sie dbx sync mit Databricks Git-Ordnern verwenden möchten, wird ein lokaler Klon Ihres Repositorys mit Ihrem Git-Anbieter vorgeschlagen, während sie nicht erforderlich ist. Wenn Sie einen lokalen Klon ausführen möchten, lesen Sie die Dokumentation Ihres Git-Anbieters.

Verwenden Sie DBFS mit dbx sync

  1. Wechseln Sie vom Terminal oder PowerShell auf Ihrem lokalen Entwicklungscomputer in das Verzeichnis, das die Dateien enthält, die Sie in Ihrem Azure Databricks-Arbeitsbereich mit DBFS synchronisieren möchten.

  2. Führen Sie den Befehl dbx-Synchronisierung aus, um Ihr lokales Verzeichnis wie folgt mit DBFS in Ihrem Arbeitsbereich zu synchronisieren. (Vergessen Sie nicht den Punkt (.) am Ende, der Ihr aktuelles Verzeichnis darstellt.)

    dbx sync dbfs --source .
    

    Tipp

    Um ein anderes Quellverzeichnis anzugeben, ersetzen Sie den Punkt (.) durch einen anderen Pfad.

    Anmerkung

    Wenn der Fehler Error: No such command 'sync' angezeigt wird, ist ihre Installation von dbx wahrscheinlich nicht mehr aktuell. Um dies zu beheben, führen Sie pip install --upgrade dbx==<version> oder python -m pip install --upgrade dbx==versionaus, wobei <version> die neueste Version von dbxist. Diese Versionsnummer finden Sie auf der PyPI-Webseite für dbx.

    pip install --upgrade dbx==<version>
    
    # Or...
    python -m pip install --upgrade dbx==version
    
  3. dbx sync beginnt mit der Synchronisierung von Dateien in Ihrem aktuellen lokalen Verzeichnis mit Dateien im folgenden DBFS-Pfad in Ihrem Arbeitsbereich. dbx sync bestätigt dies durch Ausdrucken von Target base path, gefolgt vom DBFS-Pfad, z. B.:

    /tmp/users/<your-Databricks-username>/<local-directory-name>
    

    Tipp

    Wenn Sie einen anderen Benutzernamen oder DBFS-Pfad angeben möchten, geben Sie die Optionen --user bzw. --dest an, wenn Sie dbx syncausführen.

  4. Nehmen Sie nach Bedarf Änderungen an Ihren lokalen Dateien vor.

    Wichtig

    Sie müssen Ihr Terminal oder PowerShell für dbx sync geöffnet lassen, um die Synchronisierung fortzusetzen. Wenn Sie Ihr Terminal oder PowerShell schließen, stoppt dbx sync die Überwachung von Dateiänderungen und die Synchronisierung. Um die Dateiänderungssynchronisierung fortzusetzen, wiederholen Sie dieses Verfahren von Anfang an.

  5. Überprüfen Sie bei Bedarf die Dateiänderungen im vorherigen Pfad in DBFS in Ihrem Arbeitsbereich.

Verwenden von Git-Ordnern für Databricks mit dbx sync

  1. Wechseln Sie vom Terminal oder PowerShell auf Ihrem lokalen Entwicklungscomputer in das Stammverzeichnis, das den Klon des Repositorys mit Ihrem Git-Anbieter enthält.

  2. Identifizieren Sie in Ihrem Azure Databricks-Arbeitsbereich den Namen des Git-Ordners "Databricks", mit dem Sie Das lokale geklonte Repository synchronisieren möchten. Sie finden diesen Repositorynamen, indem Sie auf Git-Ordner in der Randleiste Ihres Arbeitsbereichs klicken.

  3. Führen Sie auf Ihrem lokalen Entwicklungscomputer den Befehl dbx-Synchronisierung aus, um Ihr lokales geklontes Repository wie folgt mit den Git-Ordnern von Databricks in Ihrem Arbeitsbereich zu synchronisieren, indem Sie <your-repo-name> durch den Namen Ihres Repositorys in Den Git-Ordnern "Databricks" ersetzen. (Vergessen Sie nicht den Punkt (.) am Ende, der Ihr aktuelles Verzeichnis darstellt.)

    dbx sync repo -d <your-repo-name> --source .
    

    Tipp

    Um ein anderes Quellverzeichnis anzugeben, ersetzen Sie den Punkt (.) durch einen anderen Pfad.

    Anmerkung

    Wenn der Fehler Error: No such command 'sync' angezeigt wird, ist ihre Installation von dbx wahrscheinlich nicht mehr aktuell. Um dies zu beheben, führen Sie pip install --upgrade dbx==<version> oder python -m pip install --upgrade dbx==versionaus, wobei <version> die neueste Version von dbxist. Diese Versionsnummer finden Sie auf der PyPI-Webseite für dbx.

    pip install --upgrade dbx==<version>
    
    # Or...
    python -m pip install --upgrade dbx==version
    
  4. dbx sync beginnt mit der Synchronisierung von Dateien in Ihrem lokalen geklonten Repository mit Dateien in Den Git-Ordnern von Databricks in Ihrem Arbeitsbereich. dbx sync bestätigt dies, indem er Target base path ausgibt, gefolgt vom Pfad der Git-Ordner in Databricks, z. B.:

    /Repos/<your-Databricks-username>/<your-repo-name>
    

    Tipp

    Wenn Sie einen anderen Benutzernamen- oder Repositorynamen angeben möchten, geben Sie die optionen --user bzw. --dest-repo an, wenn Sie dbx syncausführen.

  5. Nehmen Sie nach Bedarf Änderungen an Ihren lokalen Dateien vor.

    Wichtig

    Sie müssen Ihr Terminal oder PowerShell für dbx sync geöffnet lassen, um die Synchronisierung fortzusetzen. Wenn Sie Ihr Terminal oder PowerShell schließen, stoppt dbx sync die Überwachung von Dateiänderungen und die Synchronisierung. Um die Dateiänderungssynchronisierung fortzusetzen, wiederholen Sie dieses Verfahren von Anfang an.

  6. Überprüfen Sie bei Bedarf Ihre Dateiänderungen in Den Git-Ordnern von Databricks in Ihrem Arbeitsbereich.

Weitere Ressourcen