Megosztás a következőn keresztül:


Korlátok és gyakori kérdések a Git Databricks Git-mappákkal való integrációjáról

A Databricks Git-mappák és a Git-integráció a következő szakaszokban meghatározott korlátozásokkal rendelkezik. Általános információkért lásd a Databricks korlátait.

Ugrás ide:

Fájl- és adattárkorlátok

Az Azure Databricks nem kényszeríti ki az adattár méretére vonatkozó korlátozást. Azonban:

  • A munkaágak legfeljebb 1 gigabájtra (GB) korlátozódnak.
  • A 10 MB-nál nagyobb fájlok nem tekinthetők meg az Azure Databricks felhasználói felületén.
  • Az egyes munkaterületfájlokra külön méretkorlát vonatkozik. További részletekért olvassa el a Korlátozások című témakört.

A Databricks ezt javasolja egy adattárban:

  • A munkaterület összes objektumának és fájljának teljes száma nem haladja meg a 20 000-et.

Minden Git-művelet esetén a memóriahasználat 2 GB-ra, a lemezírások pedig 4 GB-ra korlátozódnak. Mivel a korlát műveletenként van, hiba történik, ha egy 5 GB-os jelenlegi méretű Git-adattárat próbál klónozni. Ha azonban egy 3 GB méretű Git-adattárat klónozott egy műveletben, majd később 2 GB-ot ad hozzá, a következő lekéréses művelet sikeres lesz.

Hibaüzenetet kaphat, ha az adattár túllépi ezeket a korlátokat. Időtúllépési hiba is előfordulhat az adattár klónozásakor, de a művelet a háttérben is befejeződhet.

Ha a méretkorlátnál nagyobb adattárral szeretne dolgozni, próbálja ki a ritka kivételt.

Ha olyan ideiglenes fájlokat kell írnia, amelyeket nem szeretne megőrizni a fürt leállítása után, írja meg az ideiglenes fájlokat, hogy $TEMPDIR elkerülje az ágméretkorlátok túllépését, és jobb teljesítményt nyújt, mint az aktuális munkakönyvtárba (CWD) való írás, ha a CWD a munkaterület fájlrendszerében található. További információ: Hol írhatok ideiglenes fájlokat az Azure Databricksben?

Git-mappák maximális száma munkaterületenként

Munkaterületenként legfeljebb 2000 Git-mappa lehet. Ha többre van szüksége, forduljon a Databricks ügyfélszolgálatához.

A munkaterület Git-mappáiból törölt fájlok helyreállítása

A Git-mappák munkaterületi műveletei a fájl helyreállíthatóságában különböznek. Egyes műveletek lehetővé teszik a helyreállítást a Kuka mappán keresztül, míg mások nem. A korábban véglegesített és egy távoli ágba leküldéses fájlok a távoli Git-adattár Git-véglegesítési előzményei alapján állíthatók vissza. Ez a táblázat az egyes műveletek viselkedését és helyreállíthatóságát ismerteti:

Művelet Helyreállítható a fájl?
Fájl törlése munkaterület-böngészővel Igen, a Kuka mappából
Új fájl elvetése a Git-mappa párbeszédpanelen Igen, a Kuka mappából
Módosított fájl elvetése a Git-mappa párbeszédpanelen Nem, a fájl eltűnt
reset (hard) a nem véglegesített fájlmódosításokhoz Nem, a fájlmódosítások eltűntek
reset (hard) a nem véglegesített, újonnan létrehozott fájlokhoz Nem, a fájlmódosítások eltűntek
Ágak váltása a Git-mappa párbeszédpanellel Igen, távoli Git-adattárból
Egyéb Git-műveletek (Véglegesítés és leküldés stb.) a Git mappa párbeszédpaneljén Igen, távoli Git-adattárból
PATCH a Repos API-ból frissített /repos/id műveletek Igen, távoli Git-adattárból

A Git-mappából a munkaterület felhasználói felületéről a Git-műveleteken keresztül törölt fájlok a Git parancssor (vagy más Git-eszközök) használatával helyreállíthatók a távoli ágelőzményekből, ha ezeket a fájlokat korábban véglegesítették és leküldték a távoli adattárba. A munkaterület műveletei a fájl helyreállíthatóságában eltérőek. Egyes műveletek lehetővé teszik a helyreállítást a kukán keresztül, míg mások nem. A korábban véglegesített és egy távoli ágba leküldött fájlok a Git véglegesítési előzményeiből állíthatók vissza. Az alábbi táblázat az egyes műveletek viselkedését és helyreállíthatóságát ismerteti:

Monorepo-támogatás

A Databricks azt javasolja, hogy ne hozzon létre olyan Git-mappákat, amelyeket monoreposok hoznak létre, ahol a monorepó egy nagy, egy szervezetből álló Git-adattár, amely több ezer fájlt tartalmaz számos projektben.

A Git-mappákban támogatott eszköztípusok

A Git-mappák csak bizonyos Azure Databricks-eszköztípusokat támogatnak. A támogatott eszköztípus szerializálható, verzióvezérelt és leküldhető a háttérbeli Git-adattárba.

Jelenleg a támogatott eszköztípusok a következők:

Objektumtípus Részletek
Fájl A fájlok szerializált adatok, és a kódtáraktól a bináris fájlokon át a képekig bármit tartalmazhatnak. További információ: Mik azok a munkaterületfájlok?
Jegyzetfüzet A jegyzetfüzetek kifejezetten a Databricks által támogatott jegyzetfüzetfájl-formátumok. A jegyzetfüzetek különálló Azure Databricks-objektumtípusnak minősülnek a fájloktól, mivel nem szerializáltak. A Git-mappák a fájlkiterjesztés (például .ipynb) vagy a fájlkiterjesztések alapján határozzák meg a jegyzetfüzetet egy speciális jelölővel kombinálva a fájltartalomban (például a # Databricks notebook source forrásfájlok elején .py lévő megjegyzéssel).
Mappa A mappa egy Azure Databricks-specifikus struktúra, amely szerializált információkat jelöl a Gitben lévő fájlok logikai csoportosításáról. Ahogy várható volt, a felhasználó ezt "mappaként" használja egy Azure Databricks Git-mappa megtekintésekor vagy az Azure Databricks parancssori felülettel való elérésekor.

A Git-mappákban jelenleg nem támogatott Azure Databricks-eszköztípusok a következők:

  • DBSQL-lekérdezések
  • Riasztások
  • Irányítópultok (beleértve az örökölt irányítópultokat is)
  • Kísérletek
  • Genie szóközök

Amikor a Gitben dolgozik az eszközeivel, kövesse az alábbi fájlelnevezési korlátozásokat:

  • A mappák nem tartalmazhatnak olyan jegyzetfüzetet, amelynek a neve megegyezik egy másik jegyzetfüzettel, fájllal vagy mappával ugyanabban a Git-adattárban, még akkor sem, ha a fájlkiterjesztés eltér. (A forrásformátumú jegyzetfüzetek esetében a bővítmény .py pythonra, .scala Scalára, .sql SQL-re és .r R-re használható. IPYNB formátumú jegyzetfüzetek esetén a bővítmény .ipynb.) Nem használhat például egy forrásformátumú jegyzetfüzetet és test1.py egy IPYNB-jegyzetfüzetet test1 ugyanabban a Git-mappában, mert a forrásformátumú Python-jegyzetfüzetfájl (test1.py) szerializálva test1 lesz, és ütközés lép fel.
  • A karakter / nem támogatott a fájlnevekben. A Git-mappában például nem lehet fájl neve i/o.py .

Ha olyan fájlokon kísérel meg Git-műveleteket végrehajtani, amelyek neve ilyen mintákkal rendelkezik, "Hiba a Git állapotának lekérésekor" üzenet jelenik meg. Ha ezt a hibát váratlanul kapja, tekintse át a Git-adattárban lévő objektumok fájlneveit. Ha olyan fájlokat talál, amelyek neve ütköző mintákkal rendelkezik, nevezze át őket, és próbálkozzon újra a művelettel.

Feljegyzés

A meglévő nem támogatott objektumokat áthelyezheti egy Git-mappába, de nem véglegesítheti az objektumok módosításait az adattárba. Git-mappában nem hozhat létre új nem támogatott objektumokat.

Jegyzetfüzet-formátumok

A Databricks kétféle magas szintű, Databricks-specifikus jegyzetfüzetformátumot tekint: "source" és "ipynb". Amikor egy felhasználó "forrás" formátumban véglegesíti a jegyzetfüzetet, az Azure Databricks platform egy sima fájlt véglegesíti egy nyelvi utótaggal, például .py: , .sql.scalavagy .r. A "source" formátumú jegyzetfüzetek csak forráskódot tartalmaznak, és nem tartalmaznak kimeneteket, például táblamegjelenítéseket és vizualizációkat, amelyek a jegyzetfüzet futtatásának eredményei.

Az "ipynb" formátumhoz azonban vannak kimenetek társítva, és ezek az összetevők automatikusan le lesznek küldve a Git-adattárba, amely a Git-mappát támogatja az .ipynb őket létrehozó jegyzetfüzet leküldésekor. Ha a kóddal együtt szeretne kimeneteket véglegesíteni, használja az "ipynb" jegyzetfüzet formátumot, és állítsa be a konfigurációt, hogy a felhasználó véglegesítse a létrehozott kimeneteket. Ennek eredményeképpen az "ipynb" a Databricks jobb megtekintési élményét is támogatja a Távoli Git-adattárakba Git-mappákon keresztül leküldéses jegyzetfüzetek esetében.

Jegyzetfüzet forrásformátuma Részletek
forrás Bármely olyan kódfájl lehet, amely szabványos fájl utótaggal rendelkezik, amely a kódnyelvet jelzi, például .py: , .scala.r és .sql. A "forrás" jegyzetfüzetek szövegfájlokként vannak kezelve, és nem tartalmaznak társított kimeneteket, ha a git-adattárba vannak véglegesítettek.
ipynb Az "ipynb" fájlok a .ipynb Databricks Git mappából leküldéses kimeneteket (például vizualizációkat) küldhetnek le a háttérbeli Git-adattárba. A .ipnynb jegyzetfüzetek bármilyen olyan nyelven tartalmazhatnak kódot, amelyet a Databricks-jegyzetfüzetek támogatnak (annak ellenére, hogy .ipynbazok py részei).

Ha egy jegyzetfüzet futtatása után vissza szeretné küldeni a kimeneteket az adattárba, használjon egy .ipynb (Jupyter) jegyzetfüzetet. Ha csak futtatni szeretné a jegyzetfüzetet, és a Gitben szeretné kezelni, használja a "forrás" formátumot, például .py.

A támogatott jegyzetfüzetformátumokkal kapcsolatos további információkért olvassa el a Databricks-jegyzetfüzetek exportálását és importálását.

Feljegyzés

Mik azok a "kimenetek"?

A kimenetek egy jegyzetfüzet Databricks-platformon való futtatásának eredményei, beleértve a táblamegjelenítéseket és a vizualizációkat.

Hogyan meg, hogy a jegyzetfüzet milyen formátumot használ a fájlkiterjesztésen kívül?

A Databricks által felügyelt jegyzetfüzet tetején általában egysoros megjegyzés jelzi a formátumot. Egy "forrás" jegyzetfüzet esetében .py például a következőhöz hasonló sor jelenik meg:

# Databricks notebook source

Fájlok esetén .ipynb a fájl utótagja azt jelzi, hogy az "ipynb" jegyzetfüzet formátuma.

IPYNB-jegyzetfüzetek a Databricks Git-mappákban

A Jupyter-jegyzetfüzetek (.ipynb fájlok) támogatása a Git-mappákban érhető el. A jegyzetfüzetekkel .ipynb klónozhatja az adattárakat, dolgozhat velük az Azure Databricksben, majd véglegesítheti és leküldheti őket jegyzetfüzetként .ipynb . A metaadatok( például a jegyzetfüzet irányítópultja) megmaradnak. A rendszergazdák szabályozhatják, hogy a kimenetek véglegeshetők-e vagy sem.

Jegyzetfüzet kimenetének véglegesítésének .ipynb engedélyezése

Alapértelmezés szerint a Git-mappák rendszergazdai beállítása nem engedélyezi .ipynb a jegyzetfüzet kimenetének véglegesítése. A munkaterület rendszergazdái módosíthatják ezt a beállítást:

  1. Lépjen a Rendszergazdai beállítások > munkaterület beállításai elemre.

  2. A Git-mappákBan > Az IPYNB-kimenetek exportálásának engedélyezése a Git-mappákban válassza az Engedélyezés: AZ IPYNB-kimenetek bekapcsolhatók.

    Felügyeleti konzol: IpYNB-kimenetek exportálásának engedélyezése a Git-mappák számára.

Fontos

A kimenetek belefoglalásakor a vizualizáció és az irányítópult konfigurációja .ipynb fájlformátummal marad meg.

IPYNB-jegyzetfüzet kimeneti összetevő-véglegesítéseinek szabályozása

Amikor véglegesít egy .ipynb fájlt, a Databricks létrehoz egy konfigurációs fájlt, amely lehetővé teszi a kimenetek véglegesítésének szabályozását: .databricks/commit_outputs.

  1. Ha jegyzetfüzetfájlja .ipynb van, de nincs konfigurációs fájl az adattárban, nyissa meg a Git Status modalt.

  2. Az értesítési párbeszédpanelen kattintson a Commit_outputs fájl létrehozása elemre.

    Jegyzetfüzet véglegesítési felhasználói felülete: Commit_outputs fájl létrehozása gomb.

Konfigurációs fájlokat a Fájl menüből is létrehozhat. A Fájl menü egy vezérlővel rendelkezik, amellyel automatikusan frissítheti a konfigurációs fájlt, hogy meghatározza az adott jegyzetfüzet kimeneteinek felvételét vagy kizárását.

  1. A Fájl menüben válassza a Jegyzetfüzetek kimeneteinek véglegesítése lehetőséget.

    Jegyzetfüzetszerkesztő: A jegyzetfüzetek véglegesítése állapotot és vezérlőt ad ki.

  2. A párbeszédpanelen erősítse meg a jegyzetfüzet kimeneteinek véglegesítését.

    Jegyzetfüzet-kimenetek véglegesítése párbeszédpanel.

Forrásjegyzetfüzet átalakítása IPYNB-vé

A Git-mappákban lévő meglévő forrásjegyzetfüzeteket IPYNB-jegyzetfüzetté alakíthatja az Azure Databricks felhasználói felületén keresztül.

  1. Nyisson meg egy forrásjegyzetfüzetet a munkaterületen.

  2. Válassza a Fájl lehetőséget a munkaterület menüjében, majd válassza a Jegyzetfüzet formátumának módosítása [forrás] lehetőséget. Ha a jegyzetfüzet már IPYNB formátumban van, a [forrás] a menüelemben [ipynb] lesz.

    A munkaterület fájlmenüje kibontva, a Jegyzetfüzet formátumának módosítása lehetőséggel.

  3. A modális párbeszédpanelen válassza a "Jupyter notebook formátum (.ipynb)" lehetőséget, és kattintson a Módosítás gombra.

    A modális párbeszédpanelen kiválaszthatja az IPYNB-jegyzetfüzet formátumát.

További lehetőségek:

  • Új .ipynb jegyzetfüzetek létrehozása.
  • A diffek megtekintése kóddiffként (kódváltozások a cellákban) vagy nyers diffként (a kódmódosítások JSON-szintaxisként jelennek meg, amely metaadatként tartalmazza a jegyzetfüzet kimeneteit).

Az Azure Databricksben támogatott jegyzetfüzetek típusaival kapcsolatos további információkért olvassa el a Databricks-jegyzetfüzetek exportálását és importálását.

Gyakori kérdések: Git-mappakonfiguráció

Hol vannak tárolva az Azure Databricks-adattár tartalmai?

Az adattár tartalma ideiglenesen a vezérlősík lemezére van klónozva. Az Azure Databricks-jegyzetfüzetfájlok ugyanúgy a vezérlősík adatbázisában vannak tárolva, mint a fő munkaterületen lévő jegyzetfüzetek. A nem jegyzetfüzet-fájlokat a rendszer legfeljebb 30 napig tárolja a lemezen.

Támogatja a Git-mappák a helyszíni vagy a saját üzemeltetésű Git-kiszolgálókat?

A Databricks Git-mappák támogatják a GitHub Enterprise, a Bitbucket Server, az Azure DevOps Server és a GitLab ön által felügyelt integrációt, ha a kiszolgáló internethez érhető el. A Git-mappák helyszíni Git-kiszolgálóval való integrálásával kapcsolatos részletekért olvassa el a Git Proxy Server for Git-mappákat.

Ha a Bitbucket Serverrel, a GitHub Enterprise Serverrel vagy egy olyan, ön által felügyelt GitLab-előfizetés-példánnyal szeretne integrálni, amely nem érhető el az interneten, lépjen kapcsolatba az Azure Databricks-fiók csapatával.

Milyen Databricks-objektumtípusokat támogatnak a Git-mappák?

A támogatott eszköztípusok részleteiért olvassa el a Git-mappákban támogatott eszköztípusokat.

Támogatja .gitignore a Git-mappák a fájlokat?

Igen. Ha hozzáad egy fájlt az adattárhoz, és nem szeretné, hogy a Git nyomon kövesse, hozzon létre egy .gitignore fájlt, vagy használjon egy klónozott fájlt a távoli adattárból, és adja hozzá a fájlnevet, beleértve a bővítményt is.

.gitignore Csak a Git által még nem követett fájlok esetében működik. Ha olyan fájlt ad hozzá egy fájlhoz .gitignore , amelyet a Git már követett, a git továbbra is nyomon követi a fájlt.

Létrehozhatok olyan legfelső szintű mappákat, amelyek nem felhasználói mappák?

Igen, a rendszergazdák egyetlen mélységben hozhatnak létre legfelső szintű mappákat. A Git-mappák nem támogatják a további mappaszinteket.

Támogatja a Git-mappák a Git-almodulokat?

Szám Klónozhat egy Git-almodulokat tartalmazó adattárat, de az almodul nincs klónozva.

Támogatja az Azure Data Factory (ADF) a Git-mappákat?

Igen.

Forráskezelés

Miért tűnnek el a jegyzetfüzet-irányítópultok egy másik ág lekérésekor vagy kivételekor?

Ez jelenleg korlátozás, mert az Azure Databricks-jegyzetfüzet forrásfájljai nem tárolják a jegyzetfüzet irányítópultjának adatait.

Ha meg szeretné őrizni az irányítópultokat a Git-adattárban, módosítsa a jegyzetfüzet formátumát .ipynb (Jupyter notebook formátum). Alapértelmezés szerint támogatja az irányítópult- .ipynb és vizualizációdefiníciókat. Ha meg szeretné őrizni a gráfadatokat (adatpontokat), a jegyzetfüzetet kimenetekkel kell véglegesítenie.

A jegyzetfüzet kimeneteinek véglegesítéséről .ipynb további információt a jegyzetfüzet kimenetének véglegesítésének .ipynb engedélyezése című témakörben talál.

Támogatja a Git-mappák az ágak egyesítését?

Igen. Lekéréses kérelmet is létrehozhat, és egyesítheti a Git-szolgáltatót.

Törölhetek egy ágat egy Azure Databricks-adattárból?

Szám Ág törléséhez a Git-szolgáltatóban kell dolgoznia.

Ha egy fürtre telepítve van egy tár, és egy azonos nevű tár szerepel az adattár mappájában, melyik tárat importálja a rendszer?

Az adattárban lévő kódtár importálása történik. A Python-kódtárak előzményeiről további információt a Python-kódtárak elsőbbsége című témakörben talál.

Lekérhetem az adattár legújabb verzióját a Gitből, mielőtt külső vezénylési eszközre támaszkodva futtatnék egy feladatot?

Szám Ezt általában előre véglegesítésként integrálhatja a Git-kiszolgálón, így az ágba (fő/prod) történő leküldések mindegyike frissíti az éles adattárat.

Exportálhatok adattárat?

Jegyzetfüzeteket, mappákat vagy egy teljes adattárat exportálhat. Nem exportálhat jegyzetfüzeten kívüli fájlokat. Ha egy teljes adattárat exportál, a nem jegyzetfüzetfájlokat nem tartalmazza a rendszer. Az exportáláshoz használja a workspace export Databricks parancssori felületének parancsát, vagy használja a Workspace API-t.

Biztonság, hitelesítés és jogkivonatok

A Microsoft Entra ID feltételes hozzáférési szabályzatával (CAP) kapcsolatos probléma

Amikor megpróbál klónozni egy adattárat, "megtagadott hozzáférés" hibaüzenet jelenhet meg, amikor:

  • Az Azure Databricks az Azure DevOps Microsoft Entra ID-hitelesítéssel való használatára van konfigurálva.
  • Engedélyezte a feltételes hozzáférési szabályzatot az Azure DevOpsban és egy Microsoft Entra ID feltételes hozzáférési szabályzatot.

Ennek megoldásához adjon hozzá egy kizárást a feltételes hozzáférési szabályzathoz (CAP) az Azure Databricks IP-címéhez vagy felhasználóihoz.

További információ: Feltételes hozzáférési szabályzatok.

Lista engedélyezése Azure AD-jogkivonatokkal

Ha az Azure Active Directoryt (AAD) használja az Azure DevOps hitelesítéséhez, az alapértelmezett engedélyezési lista a Git URL-címeit a következőre korlátozza:

  • dev.azure.com
  • visualstudio.com

További információ: Listák engedélyezése a távoli adattárhasználat korlátozásával.

Titkosítva vannak az Azure Databricks Git-mappák tartalma?

Az Azure Databricks Git-mappák tartalmát az Azure Databricks egy alapértelmezett kulccsal titkosítja. Az ügyfél által felügyelt kulcsokkal történő titkosítás csak a Git-hitelesítő adatok titkosítása esetén támogatott.

Hogyan és hol vannak tárolva a GitHub-jogkivonatok az Azure Databricksben? Kinek van hozzáférése az Azure Databrickshez?

  • A hitelesítési jogkivonatokat az Azure Databricks vezérlősíkja tárolja, és egy Azure Databricks-alkalmazott csak egy naplózott ideiglenes hitelesítő adatokon keresztül férhet hozzá.
  • Az Azure Databricks naplózza ezeknek a jogkivonatoknak a létrehozását és törlését, a használatukat azonban nem. Az Azure Databricks olyan naplózással rendelkezik, amely nyomon követi a Git-műveleteket, amelyekkel az Azure Databricks-alkalmazás naplózhatja a jogkivonatok használatát.
  • A GitHub enterprise naplóz jogkivonat-használatot. Más Git-szolgáltatások is rendelkezhetnek Git-kiszolgálói naplózással.

Támogatja a Git-mappák a véglegesítések GPG-aláírását?

Szám

Támogatja a Git-mappák az SSH-t?

Nem, csak HTTPS.

Hiba történt az Azure Databricks és egy másik bérlői fiókban lévő Azure DevOps-adattár csatlakoztatása során

Amikor egy külön bérlőben próbál csatlakozni a DevOpshoz, előfordulhat, hogy az üzenet Unable to parse credentials from Azure Active Directory accountmegjelenik. Ha az Azure DevOps-projekt az Azure Databrickstől eltérő Microsoft Entra ID-bérlőben van, az Azure DevOps hozzáférési jogkivonatát kell használnia. Lásd: Csatlakozás az Azure DevOpshoz DevOps-jogkivonat használatával.

CI/CD és MLOps

A bejövő módosítások törlik a jegyzetfüzet állapotát

A jegyzetfüzet forráskódját módosító Git-műveletek a jegyzetfüzet állapotának elvesztését eredményezik, beleértve a cellakimeneteket, a megjegyzéseket, a verzióelőzményeket és a widgeteket. Módosíthatja például git pull egy jegyzetfüzet forráskódját. Ebben az esetben a Databricks Git-mappáknak felül kell írniuk a meglévő jegyzetfüzetet a módosítások importálásához. git commit és push az új ág létrehozása nem befolyásolja a jegyzetfüzet forráskódját, így a jegyzetfüzet állapota megmarad ezekben a műveletekben.

Fontos

Az MLflow-kísérletek nem működnek a Git-mappákban a DBR 14.x vagy újabb verzióival.

Létrehozhatok MLflow-kísérletet egy adattárban?

Az MLflow-kísérleteknek két típusa van: munkaterület és jegyzetfüzet. Az MLflow-kísérletek két típusával kapcsolatos részletekért lásd : Betanítási futtatások rendszerezése MLflow-kísérletekkel.

A Git-mappákban bármilyen típusú és naplófuttatású MLflow-kísérletet hívhat mlflow.set_experiment("/path/to/experiment") meg, de a kísérlet és a kapcsolódó futtatások nem lesznek bevetve a forrásvezérlőbe.

Munkaterület MLflow-kísérletei

A munkaterület MLflow-kísérletei nem hozhatók létre Databricks Git-mappában (Git-mappában). Ha több felhasználó külön Git-mappákat használ ugyanazon az ML-kódon való együttműködéshez, a napló MLflow egy normál munkaterületi mappában létrehozott MLflow-kísérletre fut.

Notebook MLflow-kísérletek

Jegyzetfüzet-kísérleteket egy Databricks Git-mappában hozhat létre. Ha fájlként .ipynb ellenőrzi a jegyzetfüzetet a forrásvezérlőben, naplózhatja az MLflow-futtatásokat egy automatikusan létrehozott és társított MLflow-kísérletbe. További részletekért olvassa el a jegyzetfüzet-kísérletek létrehozásáról szóló cikket.

Adatvesztés megakadályozása MLflow-kísérletekben

A Databricks-feladatok használatával létrehozott, távoli adattárban lévő forráskóddal létrehozott jegyzetfüzet-MLflow-kísérletek ideiglenes tárolóhelyen vannak tárolva. Ezek a kísérletek kezdetben a munkafolyamat végrehajtása után is megmaradnak, de a fájlok ideiglenes tárolóban való ütemezett eltávolítása során később törlés fenyegeti őket. A Databricks a munkaterület MLflow-kísérleteinek használatát javasolja Feladatok és távoli Git-források használatával.

Figyelmeztetés

Amikor olyan ágra vált, amely nem tartalmazza a jegyzetfüzetet, a kapcsolódó MLflow-kísérlet adatai elvesznek. Ez a veszteség akkor válik permnanenssé, ha az előző ág 30 napon belül nem érhető el.

Ha a 30 napos lejárat előtt szeretné helyreállítani a hiányzó kísérleti adatokat, nevezze vissza a jegyzetfüzetet az eredeti névre, nyissa meg a jegyzetfüzetet, kattintson a jobb oldali panelen a "kísérlet" ikonra (ez gyakorlatilag meghívja az mlflow.get_experiment_by_name() API-t is), és láthatja a helyreállított kísérletet és fut. 30 nap elteltével minden árva MLflow-kísérlet törlődik, hogy megfeleljen a GDPR megfelelőségi szabályzatának.

A helyzet elkerülése érdekében a Databricks azt javasolja, hogy ne nevezze át teljesen a jegyzetfüzeteket az adattárakban, vagy ha átnevez egy jegyzetfüzetet, kattintson a jobb oldali panel "kísérlet" ikonra közvetlenül a jegyzetfüzet átnevezése után.

Mi történik, ha egy jegyzetfüzet-feladat egy munkaterületen fut, miközben egy Git-művelet folyamatban van?

Bármikor, amíg egy Git-művelet folyamatban van, előfordulhat, hogy az adattár egyes jegyzetfüzetei frissültek, míg mások nem. Ez kiszámíthatatlan viselkedést okozhat.

Tegyük fel például, hogy notebook A parancs %run használatával hívnotebook Z. Ha egy Git-művelet során futó feladat a legújabb verziót notebook Aindítja el, de notebook Z még nem frissítette, az %run A jegyzetfüzetben lévő parancs elindíthatja a régebbi verziót notebook Z. A Git-művelet során a jegyzetfüzet állapota nem kiszámítható, és előfordulhat, hogy a feladat meghiúsul vagy fut notebook A , és notebook Z különböző véglegesítésekből származik.

A helyzet elkerülése érdekében használjon Inkább Git-alapú feladatokat (ahol a forrás egy Git-szolgáltató, és nem munkaterület elérési útja). További részletekért olvassa el a Git használata feladatokkal című témakört.

Források

A Databricks-munkaterület fájljaival kapcsolatos részletekért lásd : Mik azok a munkaterületfájlok?.