Sdílet prostřednictvím


Co se stalo s repozitáři Databricks?

Služba Azure Databricks zavádí nové prvky uživatelského rozhraní, které uživatelům umožňují pracovat přímo se složkami založenými na úložišti Git z uživatelského rozhraní pracovního prostoru a efektivně nahradit předchozí samostatné funkce funkcí Úložiště.

Co pro mě tato změna znamená?

Pokud jste uživatelem funkce Databricks Repos pro společnou správu verzí zdrojového kódu na Gitu pro projekty, základní funkce se nezměnily. Nejdůležitější rozdíl spočívá v tom, že mnoho kontextových operací uživatelského rozhraní teď místo repos odkazuje na složky Gitu.

Například složku Databricks zálohovanou úložištěm Gitu můžete vytvořit tak, že v uživatelském rozhraní vyberete Nový a pak úložiště :

Možnost nabídky „Nový“, která dříve odkazovala na „Repo“

Nyní vyberete Nový a zvolíte Git složku. To samé, jiný název!

Možnost nabídky Nový vás teď vyzve k vytvoření složky Git.

Tato změna přináší některá vylepšení, která zjednodušují práci se složkami řízenými verzemi:

  1. Lepší uspořádání složek: Složky Gitu je možné vytvářet na libovolné úrovni stromu souborů pracovního prostoru, což vám umožní uspořádat složky Git způsobem, který je pro váš projekt nejvhodnější. Můžete například vytvořit složky Gitu na adrese /Workspace/Users/<user email>/level_1/level_2/level_3/<Git folder name>. Úložiště lze vytvořit pouze na konkrétní úrovni adresáře, například na kořenovém adresáři uživatelské složky Repos, jako je /Workspace/Repos/<user email>/<Repo name>.
    • Poznámka: Složky Gitu můžou obsahovat nebo sloučit s jinými prostředky, které úložiště dnes nepodporují. Do složek Gitu je možné přesunout nepodporované typy prostředků, jako jsou prostředky DBSQL a experimenty MLflow. Časem bude přidána podpora serializace dalších prostředků.
  2. Zjednodušené chování uživatelského rozhraní: Tato změna přináší běžnou interakci pracovního prostoru s Gitem přímo do pracovního prostoru Databricks a zkracuje dobu strávenou procházením mezi pracovním prostorem a složkami Git řízenými verzemi.

Co se změnilo, konkrétně?

  1. Složky Gitu je možné vytvořit mimo /Repos adresář.
  2. Složky Git se vytvářejí výběrem nové>složky Git v pracovním prostoru Databricks. Tím se vytvoří nová složka Git v části /Workspace/Users/<user-email>/.
  3. Složky Git je možné vytvářet v různých hloubkách stromu souborů pracovního prostoru, pokud jsou pod /Workspace/Users/<user-email>. Můžete například vytvořit složky Gitu na adrese /Workspace/Users/<user-email>/level_1/level_2/level_3/<git-folder-name>. Můžete mít více složek Gitu v části /Workspace/Users/<user-email>.
  4. Ve složkách Gitu jsou povoleny nepodporované prostředky. Podpora serializace pro jiné typy prostředků bude přidána v průběhu času.
  5. Na rozdíl od Repos nemůžete v Databricks vytvořit nové gitové úložiště bez adresy URL vzdáleného úložiště.

Co se stane s mými současnými úložišti?

Pokud máte repozitáře definované pro váš pracovní prostor Azure Databricks, nezmizí a tyto existující repozitáře nemusíte migrovat do složek Git. Úložiště se místo toho integrovaly do uživatelského rozhraní pracovního prostoru Azure Databricks a nyní nejsou zobrazeny jako samostatná sada složek uspořádaných v rámci hlavní úrovně úložiště uzlu. Nyní je najdete v /Workspace kořenové složce jako /Workspace/Repos.

  • Stávající /Repos odkazy budou i nadále fungovat. Cesty, které začínají buď s /Repos nebo s /Workspace/Repos, odkazují na stejnou složku a deklarované cesty v odkazech jobs, dbutils.notebook.run a %run mohou zůstat beze změny.
  • Ve výjimečných případech musíte v pracovním prostoru provést jednorázovou změnu, aby toto přesměrování fungovalo. Další podrobnosti o této úpravě naleznete v tématu Odkazy na objekty pracovního prostoru.

Databricks doporučuje, aby uživatelé vytvářeli nové složky Git místo repozitářů, pokud se potřebují připojit ke gitové správě verzí z pracovního prostoru Databricks. Umístění úložišť Git a dalších prostředků pracovních prostorů na jedno místo zviditelňuje složky Git a usnadňuje správu v porovnání s úložišti.

Oprávnění ke složce Gitu mají stejné oprávnění ke složce pracovního prostoru jako jiné složky pracovního prostoru. Aby uživatelé mohli provádět většinu operací Gitu CAN_MANAGE , musí mít oprávnění.

Který dbr mám použít ke spouštění kódu ve složkách Gitu?

Pro konzistentní spouštění kódu mezi složkami Gitu a staršími úložišti Repos doporučuje Databricks uživatelům spouštět kód pouze ve složkách Gitu s DBR 15 nebo novějšími.

Chování aktuálního pracovního adresáře (CWD)

Databricks Runtime (DBR) verze 14 nebo vyšší umožňuje používat relativní cesty a poskytuje stejné aktuální pracovní adresář (CWD) pro všechny poznámkové bloky, kde poznámkový blok spouštíte z aktuálního pracovního adresáře. Aktuální chování pracovního adresáře (CWD) může být různorodé mezi poznámkovými bloky ve složce Git a ve složce mimo Git pro starší verze Databricks Runtime (DBR).

Chování sys.path v Pythonu

Databricks Runtime (DBR) verze 14.3 nebo vyšší poskytuje stejnou sys.path funkčnost ve složkách Gitu jako ve starších Reposech. Ve starších verzích DBR se chování složek Git liší od chování starších úložišť, protože kořenový adresář úložiště se automaticky nepřidává do složek Git pod sys.path. Pro Python sys.path obsahuje seznam adresářů, které interpret hledá při importu modulů. Pokud nemůžete použít DBR 15 nebo vyšší, můžete jako alternativní řešení ručně připojit cestu ke sys.path složce.

Příklady, jak přidat adresáře do sys.path pomocí relativních cest, viz Import modulů Pythonu a R.

Priorita knihovny Pythonu

Databricks Runtime (DBR) verze 14.3 nebo novější poskytuje stejnou precedenci knihoven Pythonu ve složkách Gitu jako v původních repozitářích.