Co se stalo s Úložištěm Databricks?

Služba Azure Databricks zavádí nové prvky uživatelského rozhraní, které uživatelům umožňují pracovat přímo se složkami založenými na úložišti Git z uživatelského rozhraní pracovního prostoru a efektivně nahradit předchozí samostatné funkce funkcí Úložiště.

Co pro mě tato změna znamená?

Pokud jste uživatelem funkce Databricks Repos pro spoluvlastní správu zdrojového kódu založeného na Gitu pro prostředky projektu, základní funkce se nezměnily. Nejdůležitější rozdíl spočívá v tom, že mnoho kontextových operací uživatelského rozhraní teď místo repos odkazuje na složky Gitu.

Například složku Databricks zálohovanou úložištěm Gitu můžete vytvořit tak, že v uživatelském rozhraní vyberete Nový a pak úložiště :

Možnost nabídky Nový, která se používá k odkazování na úložiště

Teď vyberete Nový a zvolíte složku Git. To samé, jiný název!

Možnost nabídky Nový vás teď vyzve k vytvoření složky Git.

Tato změna přináší některá vylepšení, která zjednodušují práci se složkami řízenými verzemi:

  1. Lepší uspořádání složek: Složky Gitu je možné vytvářet na libovolné úrovni stromu souborů pracovního prostoru, což vám umožní uspořádat složky Git způsobem, který je pro váš projekt nejvhodnější. Můžete například vytvořit složky Gitu na adrese /Workspace/Users/<user email>/level_1/level_2/level_3/<Git folder name>. Úložiště lze vytvořit pouze na pevné úrovni adresáře, například na kořenovém adresáři uživatelské složky Repos, například /Workspace/Repos/<user email>/<Repo name>.
    • Poznámka: Složky Gitu můžou obsahovat nebo sloučit s jinými prostředky, které úložiště dnes nepodporují. Do složek Gitu je možné přesunout nepodporované typy prostředků, jako jsou prostředky DBSQL a experimenty MLflow. Podpora serializace dalších prostředků bude přidána v průběhu času.
  2. Zjednodušené chování uživatelského rozhraní: Tato změna přináší běžnou interakci pracovního prostoru s Gitem přímo do pracovního prostoru Databricks a zkracuje dobu strávenou procházením mezi pracovním prostorem a složkami Git řízenými verzemi.

Co se změnilo, konkrétně?

  1. Složky Gitu je možné vytvořit mimo /Repos adresář.
  2. Složky Git se vytvářejí výběrem nové>složky Git v pracovním prostoru Databricks. Tím se vytvoří nová složka Git v části /Workspace/Users/<user-email>/.
  3. Složky Gitu je možné vytvářet v různých hloubkách stromu souborů pracovního prostoru, pokud jsou pod /Workspace/Users/<user-email>nimi . Můžete například vytvořit složky Gitu na adrese /Workspace/Users/<user-email>/level_1/level_2/level_3/<git-folder-name>. Můžete mít více složek Gitu v části /Workspace/Users/<user-email>.
  4. Ve složkách Gitu jsou povoleny nepodporované prostředky. Podpora serializace pro jiné typy prostředků bude přidána v průběhu času.
  5. Na rozdíl od úložišť nemůžete v Databricks vytvořit novou složku Git bez adresy URL vzdáleného úložiště.

Další podrobnosti

Existující úložiště, která uživatelé vytvořili, se neodejdou. Uživatelé nemusí migrovat existující úložiště do složek Git. Úložiště jsou integrovaná do uživatelského rozhraní pracovního prostoru a v uživatelském rozhraní už nejsou samostatná prostředí nejvyšší úrovně.

  • Existující /Repos odkazy budou nadále fungovat: jobsdbutils.notebook.run a %run odkazy, které používají poznámkové bloky umístěné v /Repos cestách, budou nadále fungovat.
  • /Repos Existující složka bude převedena do normální složky jako /Workspace/Workspace/Reposa jakékoli zvláštní zpracování může být odebráno. Ve výjimečných případech může být nutné v pracovním prostoru provést určité změny, aby toto přesměrování fungovalo. Další podrobnosti najdete v tématu Odkazy na objekty pracovního prostoru.

Databricks doporučuje, aby uživatelé vytvářeli nové složky Git místo úložišť, pokud se potřebují připojit ke správě zdrojového kódu Gitu z pracovního prostoru Databricks. Společné přidělení úložišť Git a dalších prostředků pracovních prostorů usnadňuje zjišťování složek Git a usnadňuje správu než úložiště.

Oprávnění ke složce Gitu mají stejné oprávnění ke složce pracovního prostoru jako jiné složky pracovního prostoru. Aby uživatelé mohli provádět většinu operací Gitu CAN_MANAGE , musí mít oprávnění.

Který dbr mám použít ke spouštění kódu ve složkách Gitu?

Pro konzistentní spouštění kódu mezi složkami Gitu a staršími úložišti Repos doporučujeme uživatelům spouštět kód ve složkách Gitu pomocí DBR 14.3 nebo novější.

Chování aktuálního pracovního adresáře (CWD)

Databricks Runtime (DBR) verze 14 nebo vyšší poskytuje stejné prostředí aktuálního pracovního adresáře (CWD) pro všechny poznámkové bloky, kde aktuální pracovní adresář je složka, ze které se poznámkový blok spouští, a který umožňuje použití relativních cest. Prostředí CWD může být nekonzistentní mezi poznámkovými bloky ve složce Git a složkou mimo Git pro starší verze databricks Runtime (DBR).

Chování sys.path v Pythonu

Databricks Runtime (DBR) verze 14.3 nebo vyšší poskytuje stejné sys.path chování ve složkách Gitu jako ve starších úložištích. U starších verzí DBR se složky Git liší od starších úložišť, protože kořenový adresář úložiště se automaticky nepřidá do adresáře sys.path pro složky Git. Pro Python obsahuje seznam adresářů, sys.path které interpret hledá při importu modulů. Pokud nemůžete použít DBR 14.3 nebo vyšší, jako alternativní řešení můžete ručně připojit cestu ke sys.pathsložce .

Příklady přidání adresářů do sys.path relativních cest najdete v tématu Import modulů Pythonu a R.

Priorita knihovny Pythonu

Databricks Runtime (DBR) verze 14.3 nebo novější poskytuje stejnou prioritu knihovny Pythonu ve složkách Gitu jako ve starších úložištích.