Megosztás a következőn keresztül:


Verzióvezérelt forráskód használata egy Azure Databricks-feladatban

A feladatokat távoli Git-adattárban vagy Databricks Git-mappában található jegyzetfüzetekkel vagy Python-kóddal futtathatja. Ez a funkció leegyszerűsíti az éles feladatok létrehozását és kezelését, és automatizálja a folyamatos üzembe helyezést:

  • Nem kell külön éles adattárat létrehoznia az Azure Databricksben, kezelnie kell az engedélyeit, és frissítenie kell azt.
  • Megakadályozhatja, hogy az éles feladatok véletlenül megváltozjanak, például az éles adattár helyi szerkesztései vagy egy ág váltása.
  • A feladatdefiníciós folyamat egyetlen igazságforrással rendelkezik a távoli adattárban, és minden feladatfuttatás egy véglegesítési kivonathoz van kapcsolva.

Ha forráskódot szeretne használni egy távoli Git-adattárban, be kell állítania a Databricks Git-mappákat (adattárakat).

Fontos

A távoli Git-adattárakból futó Azure Databricks-feladatok által létrehozott jegyzetfüzetek rövid élettartamúak, és nem használhatók MLflow-futtatások, kísérletek vagy modellek nyomon követésére. Amikor jegyzetfüzetet hoz létre egy feladatból, használjon munkaterületi MLflow-kísérletet (jegyzetfüzet MLflow-kísérlet helyett), és hívja meg mlflow.set_experiment("/path/to/experiment")a munkaterület-jegyzetfüzetet, mielőtt MLflow-követési kódot futtat. További részletekért lásd : Adatvesztés megakadályozása MLflow-kísérletekben.

Feljegyzés

Ha a feladat identitásként szolgáltatásnév használatával fut, konfigurálhatja a szolgáltatásnevet a feladat forráskódját tartalmazó Git-mappában. Lásd: Szolgáltatásnév használata Databricks Git-mappákkal.

Jegyzetfüzet használata távoli Git-adattárból

Távoli Git-adattárban található jegyzetfüzettel rendelkező feladat létrehozása:

  1. Kattintson Munkafolyamatok ikon a Munkafolyamatok elemre az oldalsávon, majd kattintson Feladat létrehozása gomb vagy lépjen egy meglévő feladatra, és vegyen fel egy új feladatot.

  2. Ha ez egy új feladat, cserélje le a Feladat nevének hozzáadása... elemet a feladat nevére.

  3. Adja meg a tevékenység nevét a Tevékenység neve mezőben.

  4. A Típus legördülő menüben válassza a Jegyzetfüzet lehetőséget.

  5. A Forrás legördülő menüben válassza a Git-szolgáltató lehetőséget, majd kattintson a Git-referencia szerkesztése vagy hozzáadása elemre. Megjelenik a Git-információk párbeszédpanel.

  6. A Git Információ párbeszédpanelen adja meg az adattár részleteit, beleértve az adattár URL-címét, a Git-szolgáltatót és a Git-hivatkozást. Ez a Git-hivatkozás lehet ág, címke vagy véglegesítés.

    Az Elérési út mezőben adjon meg egy relatív elérési utat a jegyzetfüzet helyéhez, példáuletl/notebooks/.

    A relatív elérési út megadásakor ne kezdje a fájllal / , és ./ne tartalmazza a jegyzetfüzet fájlbővítményét, például .py. Ha például a elérni kívánt jegyzetfüzet abszolút elérési útja, /notebooks/covid_eda_raw.pyírja be notebooks/covid_eda_raw az Elérési út mezőbe.

  7. Kattintson a Létrehozás gombra.

Fontos

Ha egy Python-jegyzetfüzetet közvetlenül egy forrás Git-adattárból használ, a jegyzetfüzet forrásfájljának első sorának kell lennie # Databricks notebook source. Scala-jegyzetfüzet esetén a forrásfájl első sorának kell lennie // Databricks notebook source.

Python-kód használata távoli Git-adattárból

Feladat létrehozása távoli Git-adattárban található Python-kóddal:

  1. Kattintson Munkafolyamatok ikon a Munkafolyamatok elemre az oldalsávon, majd kattintson Feladat létrehozása gomb vagy lépjen egy meglévő feladatra, és vegyen fel egy új feladatot.

  2. Ha ez egy új feladat, cserélje le a Feladat nevének hozzáadása... elemet a feladat nevére.

  3. Adja meg a tevékenység nevét a Tevékenység neve mezőben.

  4. A Típus legördülő menüben válassza a Python-szkriptet.

  5. A Forrás legördülő menüben válassza a Git-szolgáltató lehetőséget, majd kattintson a Git-referencia szerkesztése vagy hozzáadása elemre. Megjelenik a Git-információk párbeszédpanel.

  6. A Git Információ párbeszédpanelen adja meg az adattár részleteit, beleértve az adattár URL-címét, a Git-szolgáltatót és a Git-hivatkozást. Ez a Git-hivatkozás lehet ág, címke vagy véglegesítés.

    Az Elérési út mezőben adjon meg egy relatív elérési utat a forráshelyhez, példáuletl/python/python_etl.py.

    Amikor beírja a relatív elérési utat, ne kezdje a következővel / : vagy ./. Ha például a elérni kívánt Python-kód abszolút elérési útja, /python/covid_eda_raw.pyírja be python/covid_eda_raw.py az Elérési út mezőbe.

  7. Kattintson a Létrehozás gombra.

Ha egy távoli Git-adattárban tárolt Python-kódot futtató tevékenység futtatási előzményeit tekinti meg, a Feladatfuttatás részletei panel gitadatokat tartalmaz, beleértve a futtatáshoz társított véglegesítési SHA-t is.

SQL-lekérdezések használata távoli Git-adattárból

Feljegyzés

Egy fájlban csak egy SQL-utasítás támogatott. Több, pontosvesszővel elválasztott SQL-utasítás (;) nem engedélyezett.

Távoli Git-adattárban tárolt fájlokban .sql tárolt lekérdezések futtatása:

  1. Kattintson Munkafolyamatok ikon a Munkafolyamatok elemre az oldalsávon, majd kattintson Feladat létrehozása gomb vagy lépjen egy meglévő feladatra, és vegyen fel egy új feladatot.

  2. Ha ez egy új feladat, cserélje le a Feladat nevének hozzáadása... elemet a feladat nevére.

  3. Adja meg a tevékenység nevét a Tevékenység neve mezőben.

  4. A Típus legördülő menüben válassza az SQL lehetőséget.

  5. Az SQL-feladat legördülő menüjében válassza a Fájl lehetőséget.

  6. A Forrás legördülő menüben válassza a Git-szolgáltató lehetőséget, majd kattintson a Git-referencia szerkesztése vagy hozzáadása elemre. Megjelenik a Git-információk párbeszédpanel.

  7. A Git Információ párbeszédpanelen adja meg az adattár részleteit, beleértve az adattár URL-címét, a Git-szolgáltatót és a Git-hivatkozást. Ez a Git-hivatkozás lehet ág, címke vagy véglegesítés.

    Az Elérési út mezőben adjon meg egy relatív elérési utat a forráshelyhez, példáulqueries/sql/myquery.sql.

    Amikor beírja a relatív elérési utat, ne kezdje a következővel / : vagy ./. Ha például a elérni kívánt SQL-lekérdezés abszolút elérési útja az /sql/myqeury.sqlsql/myquery.sql Elérési út mező.

  8. Válasszon ki egy SQL-raktárat. Ki kell választania egy kiszolgáló nélküli SQL-raktárt vagy egy profi SQL-raktárt.

  9. Kattintson a Létrehozás gombra.

További feladatok hozzáadása távoli Git-adattárból

A többfeladatos feladatok további tevékenységei az alábbi módok egyikével hivatkozhatnak ugyanarra a véglegesítésre a távoli adattárban:

  • shagit_branch mikor $branch/head van beállítva
  • shagit_tag mikor $tag van beállítva
  • az érték git_commit

Az Azure Databricks-feladatokban a jegyzetfüzet- és Python-feladatokat kombinálhatja, de ugyanazt a Git-referenciát kell használniuk.

Databricks Git-mappa használata

Ha az Azure Databricks felhasználói felületét szeretné használni a forráskód verziókövetéséhez, klónozza az adattárat egy Databricks Git-mappába. További információ : 2. lehetőség: Éles Git-mappa és Git Automation beállítása.

Ha egy feladatfeladat Git-mappájából szeretne jegyzetfüzetet vagy Python-kódot hozzáadni, a Forrás legördülő menüben válassza a Munkaterület lehetőséget, és adja meg a jegyzetfüzet vagy Python-kód elérési útját az Elérési úton.

Jegyzetfüzetek elérése IDE-ből

Ha integrált fejlesztési környezetből kell hozzáférnie a jegyzetfüzetekhez, győződjön meg arról, hogy a megjegyzés # Databricks notebook source a jegyzetfüzet forráskódfájljának tetején található. A normál Python-fájlok és a forráskód formátumban exportált Azure Databricks Python-nyelvű jegyzetfüzetek megkülönböztetéséhez a Databricks hozzáadja a vonalat # Databricks notebook source a jegyzetfüzet forráskódfájljának tetején. Amikor importálja a jegyzetfüzetet, az Azure Databricks felismeri és importálja jegyzetfüzetként, nem Python-modulként.

Hibaelhárítás

Feljegyzés

A Git-alapú feladatok nem támogatják a munkaterületfájlok írási hozzáférését. Ha ideiglenes tárolóhelyre szeretne adatokat írni, használja az illesztőprogram-tárolót. Ha állandó adatokat szeretne írni Egy Git-feladatból, használjon UC-kötetet vagy DBFS-t.

Hibaüzenet:

Run result unavailable: job failed with error message Notebook not found: path-to-your-notebook

Lehetséges okok:

A jegyzetfüzetből hiányzik a megjegyzés # Databricks notebook source a jegyzetfüzet forráskódfájljának tetején, vagy a megjegyzésben notebook kisbetűvel nkell kezdődnie.