Mi történt a Databricks-adattárral?
Az Azure Databricks új felhasználói felületi elemeket dobott ki, amelyek lehetővé teszik a felhasználók számára, hogy közvetlenül a Git adattár által támogatott mappáival működjenek együtt a Munkaterület felhasználói felületén, így hatékonyan lecserélhetik a korábbi, különálló "Adattárak" funkció funkcióit.
Mit jelent ez a változás számomra?
Ha Ön a Databricks Repos szolgáltatás felhasználója a projektegységek közös verziójú Git-alapú forrásvezérléséhez, az alapvető funkció nem változott. A legfontosabb különbség az, hogy sok környezetfüggő felhasználói felületi művelet most a "Git-mappákra" hivatkozik, nem pedig az "Adattárakra".
Létrehozhat például egy Git-adattár által támogatott Databricks-mappát az Új, majd a Felhasználói felületen található Adattár kiválasztásával:
Most válassza az Új lehetőséget, és válassza a Git mappát. Ugyanaz a dolog, más név!
Ez a módosítás néhány olyan fejlesztést biztosít, amely leegyszerűsíti a verzióvezérelt mappákkal való munkát:
- Jobb mappaszervezés: A Git-mappák a munkaterület fájlfája bármely szintjén létrehozható, így a Git-mappák a projekthez legjobban megfelelő módon rendszerezhetők. Létrehozhat például Git-mappákat a következő helyen
/Workspace/Users/<user email>/level_1/level_2/level_3/<Git folder name>
: . Az adattárak csak rögzített könyvtárszinten hozhatók létre, például a tárház felhasználói mappájának gyökere, például/Workspace/Repos/<user email>/<Repo name>
.- Megjegyzés: A Git-mappák tartalmazhatnak vagy rendezhetnek más olyan objektumokat, amelyeket a tárak jelenleg nem támogatnak. A nem támogatott eszköztípusok, például a DBSQL-objektumok és az MLflow-kísérletek áthelyezhetők a Git-mappákba. A program idővel hozzáadja a további eszközök szerializálási támogatását.
- Egyszerűsített felhasználói felületi viselkedések: Ez a módosítás közvetlenül a Databricks-munkaterületen a Gittel végzett gyakori munkaterület-interakciót eredményezi, és csökkenti a munkaterület és a verzió által vezérelt Git-mappák közötti navigálással töltött időt.
Mi változott, konkrétan?
- A Git-mappák a címtáron kívül
/Repos
is létrehozhatók. - A Git-mappák a Databricks-munkaterület Új>Git mappáinak kiválasztásával jönnek létre. Ezzel létrehoz egy új Git-mappát a
/Workspace/Users/<user-email>/
. - A Git-mappák a munkaterület fájlfajának különböző mélységében hozhatók létre, amíg azok alatt
/Workspace/Users/<user-email>
vannak. Létrehozhat például Git-mappákat a következő helyen/Workspace/Users/<user-email>/level_1/level_2/level_3/<git-folder-name>
: . A alatt több Git-mappa/Workspace/Users/<user-email>
is lehet. - A nem támogatott objektumok a Git-mappákban engedélyezettek. A többi eszköztípus szerializálási támogatása idővel bővül.
- Az adattárakkal ellentétben nem hozhat létre új Git-mappát a Databricksben távoli adattár URL-címe nélkül.
Mi történik az aktuális adattárakban?
Ha rendelkezik az Azure Databricks-munkaterülethez definiált adattárakkal, azok nem mennek el, és nem kell ezeket a meglévő adattárakat Git-mappákba migrálnia. Ehelyett az adattárak integrálva lettek az Azure Databricks-munkaterület felhasználói felületére, és többé nem jelennek meg külön mappákként egy legfelső szintű adattárcsomópont alatt. Most már a /Workspace
gyökérmappában /Workspace/Repos
is megtalálhatók.
- A meglévő
/Repos
hivatkozások továbbra is működni fognak. Azok az elérési utak, amelyek ugyanabban a mappábanjobs
kezdődnek/Repos
, vagy/Workspace/Repos
ugyanarra a mappára hivatkoznak, és a deklaráltdbutils.notebook.run
%run
elérési utak és hivatkozások változatlanok maradnak. - Ritkán egyszeri módosítást kell végrehajtania a munkaterületen ahhoz, hogy ez az átirányítás működjön. A módosítással kapcsolatos további részletekért lásd : Munkaterület-objektumokra mutató hivatkozások.
A Databricks azt javasolja, hogy a felhasználók tárak helyett új Git-mappákat hozzanak létre, ha a Databricks-munkaterületről csatlakozniuk kell a Git-forrásvezérlőhöz. A Git-adattárak és más munkaterületi objektumok együttes elhelyezésével a Git-mappák könnyebben felderíthetők és kezelhetők, mint az adattárak.
A Git-mappák engedélyeinek Git-mappái ugyanazok a munkaterületi mappaengedélyek , mint a többi munkaterületi mappa. A legtöbb Git-művelet végrehajtásához a CAN_MANAGE
felhasználóknak engedéllyel kell rendelkezniük.
Melyik DBR-t kell használnom a kód Git-mappákban való futtatásához?
A Git-mappák és az örökölt adattárak közötti egységes kódvégrehajtás érdekében a Databricks azt javasolja, hogy a felhasználók csak a DBR 15+-tal rendelkező Git-mappákban futtassanak kódot.
A munkakönyvtár (CWD) jelenlegi viselkedése
A Databricks Runtime (DBR) 14-es vagy újabb verziója lehetővé teszi a relatív elérési utak használatát, és ugyanazt az aktuális munkakönyvtárat (CWD) biztosítja az összes jegyzetfüzethez, ahol a jegyzetfüzetet az aktuális munkakönyvtárból futtatja. A jelenlegi munkakönyvtári (CWD)-viselkedések inkonzisztensek lehetnek a Git-mappában lévő jegyzetfüzetek és a Databricks Runtime (DBR) régebbi verzióihoz tartozó nem Git-mappák között.
Python sys.path viselkedése
A Databricks Runtime (DBR) 14.3-as vagy újabb verziója ugyanazt sys.path
a viselkedést biztosítja a Git-mappákban, mint az örökölt adattárakban. A korábbi DBR-verziók esetében a Git-mappa működése eltér az örökölt adattáraktól, mivel a rendszer nem adja hozzá sys.path
automatikusan a gyökéradattár könyvtárát a Git-mappákhoz. Python sys.path
esetén az értelmező által a modulok importálásakor keresett könyvtárak listáját tartalmazza. Ha nem tudja használni a DBR 15-ös vagy újabb verzióját, áthidaló megoldásként manuálisan hozzáfűzhet egy mappa elérési útját sys.path
.
Példák a könyvtárak relatív elérési utakhoz való hozzáadására sys.path
: Python- és R-modulok importálása.
Python-kódtár elsőbbsége
A Databricks Runtime (DBR) 14.3-as vagy újabb verziója ugyanazt a Python-kódtár-elsőbbséget biztosítja a Git-mappákban, mint az örökölt adattárakban.