Share via


Was ist mit Databricks Repos passiert?

Azure Databricks hat neue Benutzeroberflächenelemente eingeführt, mit denen Benutzer direkt über die Arbeitsbereichsbenutzeroberfläche mit Git-Repository-unterstützten Ordnern arbeiten können, und ersetzt effektiv die vorherigen, separaten „Repos“-Featurefunktionen.

Was bedeutet diese Änderung für mich?

Wenn Sie das Databricks Repos-Features für die koversionierte Git-basierte Quellcodeverwaltung von Projektressourcen verwenden, hat sich die Kernfunktionalität nicht geändert. Der wichtigste Unterschied besteht darin, dass viele kontextbezogene Benutzeroberflächenvorgänge jetzt auf „Git-Ordner“ und nicht auf „Repos“ verweisen.

Beispielsweise könnte ein von einem Git-Repository gesicherter Databricks-Ordner erstellt werden, indem Neu und dann auf der Benutzeroberfläche Repo ausgewählt wird:

Die Menüoption „Neu“ wird zum Verweisen auf ein „Repository“ verwendet

Jetzt wählen Sie Neu und dann Git-Ordner aus. Dasselbe, nur ein anderer Name!

Die Menüoption „Neu“ fordert Sie jetzt auf, einen „Git-Ordner“ zu erstellen.

Diese Änderung bietet einige Verbesserungen, die das Arbeiten mit versionsgesteuerten Ordnern vereinfachen:

  1. Bessere Ordnerorganisation: Git-Ordner können auf jeder Ebene der Arbeitsbereichsdateistruktur erstellt werden, sodass Sie Ihre Git-Ordner auf eine Weise organisieren können, die für Ihr Projekt am besten geeignet ist. Sie können beispielsweise Git-Ordner unter /Workspace/Users/<user email>/level_1/level_2/level_3/<Git folder name> erstellen. Repos können nur auf fester Verzeichnisebene erstellt werden, z. B. dem Stamm des Ordners „Repos“, /Workspace/Repos/<user email>/<Repo name>.
    • Hinweis: Git-Ordner können andere Ressourcen enthalten oder mit anderen Ressourcen zusammensetzen, die von Repos heute nicht unterstützt werden. Nicht unterstützte Objekttypen wie DBSQL-Objekte und MLflow-Experimente können in Git-Ordner verschoben werden. Die Serialisierungsunterstützung für zusätzliche Ressourcen wird im Laufe der Zeit hinzugefügt.
  2. Vereinfachte Benutzeroberflächenverhalten: Diese Änderung bringt eine allgemeine Arbeitsbereichsinteraktion mit Git direkt in Ihren Databricks-Arbeitsbereich, und reduziert die Zeit für die Navigation zwischen Ihrem Arbeitsbereich und Ihren versionsgesteuerten Git-Ordnern.

Was hat sich genau geändert?

  1. Git-Ordner können außerhalb des /Repos-Verzeichnisses erstellt werden.
  2. Git-Ordner werden erstellt, indem Sie Neu>Git-Ordner in einem Databricks-Arbeitsbereich auswählen. Dadurch wird unter /Workspace/Users/<user-email>/ ein neuer Git-Ordner erstellt.
  3. Git-Ordner können in verschiedenen Tiefen der Arbeitsbereichsdateistruktur erstellt werden, solange sie sich unter /Workspace/Users/<user-email> befinden. Sie können beispielsweise Git-Ordner unter /Workspace/Users/<user-email>/level_1/level_2/level_3/<git-folder-name> erstellen. Sie können mehrere Git-Ordner unter /Workspace/Users/<user-email> haben.
  4. Nicht unterstützte Ressourcen sind in Git-Ordnern zulässig. Die Serialisierungsunterstützung für andere Ressourcentypen wird im Laufe der Zeit hinzugefügt.
  5. Im Gegensatz zu Repos können Sie ohne eine Remote-Repository-URL keinen neuen Git-Ordner in Databricks erstellen.

Zusätzliche Details

Vorhandene Repos, die Benutzer erstellt haben, bleiben bestehen. Benutzer müssen vorhandene Repos nicht zu Git-Ordnern migrieren. Repos wurden in die Arbeitsbereichsbenutzeroberfläche integriert und sind keine separate Oberfläche auf oberster Ebene in der Benutzeroberfläche mehr.

  • Vorhandene /Repos-Verweise funktionieren weiterhin: jobs-, dbutils.notebook.run- und %run-Verweise, die Notebooks verwenden, die sich unter /Repos-Pfaden befinden, funktionieren weiterhin.
  • Der vorhandene /Repos-Ordner wird in einen normalen Ordner unter /Workspace als /Workspace/Repos konvertiert, und eine spezielle Behandlung kann entfernt werden. In seltenen Fällen müssen Sie möglicherweise einige Änderungen in Ihrem Arbeitsbereich vornehmen, damit diese Umleitung funktioniert. Weitere Informationen finden Sie unter Verweise auf Arbeitsbereichsobjekte.

Databricks empfiehlt Benutzern, neue Git-Ordner anstelle von Repos zu erstellen, wenn sie über den Databricks-Arbeitsbereich eine Verbindung mit der Git-Quellcodeverwaltung herstellen müssen. Durch die gemeinsame Zuweisung von Git-Repos und anderen Arbeitsbereichsressourcen sind Git-Ordner besser auffindbar und können einfacher verwaltet werden als Repos.

Git-Ordnerberechtigungen Git-Ordner haben dieselben Arbeitsbereichordnerberechtigungen wie andere Arbeitsbereichsordner. Benutzer müssen über die CAN_MANAGE-Berechtigung verfügen, um die meisten Git-Vorgänge auszuführen.

Welche DBR sollte ich zum Ausführen von Code in Git-Ordnern verwenden?

Für eine konsistente Codeausführung zwischen Git-Ordnern und Legacyrepos empfiehlt Databricks Benutzern, Code nur in Git-Ordnern mit DBR 15+ auszuführen.

Verhalten des aktuellen Arbeitsverzeichnisses (CWD)

Databricks Runtime (DBR) Version 14 oder höher ermöglicht die Verwendung relativer Pfade und bietet die gleiche aktuelle Arbeitsverzeichnis(CWD)-Erfahrung für alle Notizbücher, in denen Sie das Notebook aus dem aktuellen Arbeitsverzeichnis ausführen. Aktuelles Arbeitsverzeichnis (CWD)-Verhalten kann zwischen Notebooks in einem Git-Ordner und einem Nicht-Git-Ordner für ältere Versionen der Databricks Runtime (DBR) inkonsistent sein.

Python sys.path-Verhalten

Databricks Runtime (DBR) Version 14.3 oder höher bietet das gleiche sys.path-Verhalten in Git-Ordnern wie in Legacy-Repos. Bei früheren DBR-Versionen weisen Git-Ordner andere Verhaltensweisen auf als Legacy-Repos, da das Stammrepoverzeichnis nicht automatisch zu „sys.path“ für Git-Ordner hinzugefügt wird. Für Python enthält sys.path eine Liste der Verzeichnisse, die der Interpreter beim Importieren von Modulen durchsucht. Wenn Sie DBR 14.3 oder höher nicht verwenden können, können Sie manuell einen Ordnerpfad an sys.path anfügen.

Beispiele zum Hinzufügen von Verzeichnissen zu sys.path mithilfe relativer Pfade finden Sie unter Importieren von Python- und R-Modulen.

Rangfolge der Python-Bibliothek

Databricks Runtime (DBR) Version 14.3 oder höher bietet den gleichen Vorrang der Python-Bibliothek in Git-Ordnern wie in Legacy-Repos.