Megosztás a következőn keresztül:


Mi történt a Databricks-adattárral?

Az Azure Databricks új felhasználói felületi elemeket dobott ki, amelyek lehetővé teszik a felhasználók számára, hogy közvetlenül a Git adattár által támogatott mappáival működjenek együtt a Munkaterület felhasználói felületén, így hatékonyan lecserélhetik a korábbi, különálló "Adattárak" funkció funkcióit.

Mit jelent ez a változás számomra?

Ha Ön a Databricks Repos szolgáltatás felhasználója a projektegységek közös verziójú Git-alapú forrásvezérléséhez, az alapvető funkció nem változott. A legfontosabb különbség az, hogy sok környezetfüggő felhasználói felületi művelet most a "Git-mappákra" hivatkozik, nem pedig az "Adattárakra".

Létrehozhat például egy Git-adattár által támogatott Databricks-mappát az Új, majd a Felhasználói felületen található Adattár kiválasztásával:

A

Most válassza az Új lehetőséget, és válassza a Git mappát. Ugyanaz a dolog, más név!

Az

Ez a módosítás néhány olyan fejlesztést biztosít, amely leegyszerűsíti a verzióvezérelt mappákkal való munkát:

  1. Jobb mappaszervezés: A Git-mappák a munkaterület fájlfája bármely szintjén létrehozható, így a Git-mappák a projekthez legjobban megfelelő módon rendszerezhetők. Létrehozhat például Git-mappákat a következő helyen /Workspace/Users/<user email>/level_1/level_2/level_3/<Git folder name>: . Az adattárak csak rögzített könyvtárszinten hozhatók létre, például a tárház felhasználói mappájának gyökere, például /Workspace/Repos/<user email>/<Repo name>.
    • Megjegyzés: A Git-mappák tartalmazhatnak vagy rendezhetnek más olyan objektumokat, amelyeket a tárak jelenleg nem támogatnak. A nem támogatott eszköztípusok, például a DBSQL-objektumok és az MLflow-kísérletek áthelyezhetők a Git-mappákba. A program idővel hozzáadja a további eszközök szerializálási támogatását.
  2. Egyszerűsített felhasználói felületi viselkedések: Ez a módosítás közvetlenül a Databricks-munkaterületen a Gittel végzett gyakori munkaterület-interakciót eredményezi, és csökkenti a munkaterület és a verzió által vezérelt Git-mappák közötti navigálással töltött időt.

Mi változott, konkrétan?

  1. A Git-mappák a címtáron kívül /Repos is létrehozhatók.
  2. A Git-mappák a Databricks-munkaterület Új>Git mappáinak kiválasztásával jönnek létre. Ezzel létrehoz egy új Git-mappát a /Workspace/Users/<user-email>/.
  3. A Git-mappák a munkaterület fájlfajának különböző mélységében hozhatók létre, amíg azok alatt /Workspace/Users/<user-email>vannak. Létrehozhat például Git-mappákat a következő helyen /Workspace/Users/<user-email>/level_1/level_2/level_3/<git-folder-name>: . A alatt több Git-mappa /Workspace/Users/<user-email>is lehet.
  4. A nem támogatott objektumok a Git-mappákban engedélyezettek. A többi eszköztípus szerializálási támogatása idővel bővül.
  5. Az adattárakkal ellentétben nem hozhat létre új Git-mappát a Databricksben távoli adattár URL-címe nélkül.

Mi történik az aktuális adattárakban?

Ha rendelkezik az Azure Databricks-munkaterülethez definiált adattárakkal, azok nem mennek el, és nem kell ezeket a meglévő adattárakat Git-mappákba migrálnia. Ehelyett az adattárak integrálva lettek az Azure Databricks-munkaterület felhasználói felületére, és többé nem jelennek meg külön mappákként egy legfelső szintű adattárcsomópont alatt. Most már a /Workspace gyökérmappában /Workspace/Reposis megtalálhatók.

  • A meglévő /Repos hivatkozások továbbra is működni fognak. Azok az elérési utak, amelyek ugyanabban a mappában jobskezdődnek/Repos, vagy /Workspace/Repos ugyanarra a mappára hivatkoznak, és a deklarált dbutils.notebook.run%run elérési utak és hivatkozások változatlanok maradnak.
  • Ritkán egyszeri módosítást kell végrehajtania a munkaterületen ahhoz, hogy ez az átirányítás működjön. A módosítással kapcsolatos további részletekért lásd : Munkaterület-objektumokra mutató hivatkozások.

A Databricks azt javasolja, hogy a felhasználók tárak helyett új Git-mappákat hozzanak létre, ha a Databricks-munkaterületről csatlakozniuk kell a Git-forrásvezérlőhöz. A Git-adattárak és más munkaterületi objektumok együttes elhelyezésével a Git-mappák könnyebben felderíthetők és kezelhetők, mint az adattárak.

A Git-mappák engedélyeinek Git-mappái ugyanazok a munkaterületi mappaengedélyek , mint a többi munkaterületi mappa. A legtöbb Git-művelet végrehajtásához a CAN_MANAGE felhasználóknak engedéllyel kell rendelkezniük.

Melyik DBR-t kell használnom a kód Git-mappákban való futtatásához?

A Git-mappák és az örökölt adattárak közötti egységes kódvégrehajtás érdekében a Databricks azt javasolja, hogy a felhasználók csak a DBR 15+-tal rendelkező Git-mappákban futtassanak kódot.

A munkakönyvtár (CWD) jelenlegi viselkedése

A Databricks Runtime (DBR) 14-es vagy újabb verziója lehetővé teszi a relatív elérési utak használatát, és ugyanazt az aktuális munkakönyvtárat (CWD) biztosítja az összes jegyzetfüzethez, ahol a jegyzetfüzetet az aktuális munkakönyvtárból futtatja. A jelenlegi munkakönyvtári (CWD)-viselkedések inkonzisztensek lehetnek a Git-mappában lévő jegyzetfüzetek és a Databricks Runtime (DBR) régebbi verzióihoz tartozó nem Git-mappák között.

Python sys.path viselkedése

A Databricks Runtime (DBR) 14.3-as vagy újabb verziója ugyanazt sys.path a viselkedést biztosítja a Git-mappákban, mint az örökölt adattárakban. A korábbi DBR-verziók esetében a Git-mappa működése eltér az örökölt adattáraktól, mivel a rendszer nem adja hozzá sys.path automatikusan a gyökéradattár könyvtárát a Git-mappákhoz. Python sys.path esetén az értelmező által a modulok importálásakor keresett könyvtárak listáját tartalmazza. Ha nem tudja használni a DBR 15-ös vagy újabb verzióját, áthidaló megoldásként manuálisan hozzáfűzhet egy mappa elérési útját sys.path .

Példák a könyvtárak relatív elérési utakhoz való hozzáadására sys.path : Python- és R-modulok importálása.

Python-kódtár elsőbbsége

A Databricks Runtime (DBR) 14.3-as vagy újabb verziója ugyanazt a Python-kódtár-elsőbbséget biztosítja a Git-mappákban, mint az örökölt adattárakban.