Verzióvezérelt forráskód használata egy Azure Databricks-feladatban

A feladatokat távoli Git-adattárban vagy Databricks Git-mappában található jegyzetfüzetekkel vagy Python-kóddal futtathatja. Ez a funkció leegyszerűsíti az éles feladatok létrehozását és kezelését, és automatizálja a folyamatos üzembe helyezést:

  • Nem kell külön éles adattárat létrehoznia az Azure Databricksben, kezelnie kell az engedélyeit, és frissítenie kell azt.
  • Megakadályozhatja, hogy az éles feladatok véletlenül megváltozjanak, például az éles adattár helyi szerkesztései vagy egy ág váltása.
  • A feladatdefiníciós folyamat egyetlen igazságforrással rendelkezik a távoli adattárban, és minden feladatfuttatás egy véglegesítési kivonathoz van kapcsolva.

Ha forráskódot szeretne használni egy távoli Git-adattárban, be kell állítania a Databricks Git-mappákat (adattárakat).

Feljegyzés

Ha a feladat identitásként szolgáltatásnév használatával fut, konfigurálhatja a szolgáltatásnevet a feladat forráskódját tartalmazó Git-mappában. Lásd: Szolgáltatásnév használata Databricks Git-mappákkal.

Jegyzetfüzet használata távoli Git-adattárból

Távoli Git-adattárban található jegyzetfüzettel rendelkező feladat létrehozása:

  1. Kattintson Feladatok ikona Munkafolyamatok elemre az oldalsávon, majd kattintson Feladat létrehozása gomb vagy lépjen egy meglévő feladatra, és vegyen fel egy új feladatot.

  2. Ha ez egy új feladat, cserélje le a Feladat nevének hozzáadása... elemet a feladat nevére.

  3. Adja meg a tevékenység nevét a Tevékenység neve mezőben.

  4. A Típus legördülő menüben válassza a Jegyzetfüzet lehetőséget.

  5. A Forrás legördülő menüben válassza a Git-szolgáltató lehetőséget, majd kattintson a Git-referencia szerkesztése vagy hozzáadása elemre. Megjelenik a Git-információk párbeszédpanel.

  6. A Git Információ párbeszédpanelen adja meg az adattár részleteit, beleértve az adattár URL-címét, a Git-szolgáltatót és a Git-hivatkozást. Ez a Git-hivatkozás lehet ág, címke vagy véglegesítés.

    Az Elérési út mezőben adjon meg egy relatív elérési utat a jegyzetfüzet helyéhez, példáuletl/notebooks/.

    A relatív elérési út megadásakor ne kezdje a fájllal / , és ./ne tartalmazza a jegyzetfüzet fájlbővítményét, például .py. Ha például a elérni kívánt jegyzetfüzet abszolút elérési útja, /notebooks/covid_eda_raw.pyírja be notebooks/covid_eda_raw az Elérési út mezőbe.

  7. Kattintson a Létrehozás gombra.

Python-kód használata távoli Git-adattárból

Feladat létrehozása távoli Git-adattárban található Python-kóddal:

  1. Kattintson Feladatok ikona Munkafolyamatok elemre az oldalsávon, majd kattintson Feladat létrehozása gomb vagy lépjen egy meglévő feladatra, és vegyen fel egy új feladatot.

  2. Ha ez egy új feladat, cserélje le a Feladat nevének hozzáadása... elemet a feladat nevére.

  3. Adja meg a tevékenység nevét a Tevékenység neve mezőben.

  4. A Típus legördülő menüben válassza a Python-szkriptet.

  5. A Forrás legördülő menüben válassza a Git-szolgáltató lehetőséget, majd kattintson a Git-referencia szerkesztése vagy hozzáadása elemre. Megjelenik a Git-információk párbeszédpanel.

  6. A Git Információ párbeszédpanelen adja meg az adattár részleteit, beleértve az adattár URL-címét, a Git-szolgáltatót és a Git-hivatkozást. Ez a Git-hivatkozás lehet ág, címke vagy véglegesítés.

    Az Elérési út mezőben adjon meg egy relatív elérési utat a forráshelyhez, példáuletl/python/python_etl.py.

    Amikor beírja a relatív elérési utat, ne kezdje a következővel / : vagy ./. Ha például a elérni kívánt Python-kód abszolút elérési útja, /python/covid_eda_raw.pyírja be python/covid_eda_raw.py az Elérési út mezőbe.

  7. Kattintson a Létrehozás gombra.

Ha egy távoli Git-adattárban tárolt Python-kódot futtató tevékenység futtatási előzményeit tekinti meg, a Feladatfuttatás részletei panel gitadatokat tartalmaz, beleértve a futtatáshoz társított véglegesítési SHA-t is.

SQL-lekérdezések használata távoli Git-adattárból

Feljegyzés

Egy fájlban csak egy SQL-utasítás támogatott. Több, pontosvesszővel elválasztott SQL-utasítás (;) nem engedélyezett.

Távoli Git-adattárban tárolt fájlokban .sql tárolt lekérdezések futtatása:

  1. Kattintson Feladatok ikona Munkafolyamatok elemre az oldalsávon, majd kattintson Feladat létrehozása gomb vagy lépjen egy meglévő feladatra, és vegyen fel egy új feladatot.

  2. Ha ez egy új feladat, cserélje le a Feladat nevének hozzáadása... elemet a feladat nevére.

  3. Adja meg a tevékenység nevét a Tevékenység neve mezőben.

  4. A Típus legördülő menüben válassza az SQL lehetőséget.

  5. Az SQL-feladat legördülő menüjében válassza a Fájl lehetőséget.

  6. A Forrás legördülő menüben válassza a Git-szolgáltató lehetőséget, majd kattintson a Git-referencia szerkesztése vagy hozzáadása elemre. Megjelenik a Git-információk párbeszédpanel.

  7. A Git Információ párbeszédpanelen adja meg az adattár részleteit, beleértve az adattár URL-címét, a Git-szolgáltatót és a Git-hivatkozást. Ez a Git-hivatkozás lehet ág, címke vagy véglegesítés.

    Az Elérési út mezőben adjon meg egy relatív elérési utat a forráshelyhez, példáulqueries/sql/myquery.sql.

    Amikor beírja a relatív elérési utat, ne kezdje a következővel / : vagy ./. Ha például a elérni kívánt SQL-lekérdezés abszolút elérési útja az /sql/myqeury.sqlsql/myquery.sql Elérési út mező.

  8. Válasszon ki egy SQL-raktárat. Ki kell választania egy kiszolgáló nélküli SQL-raktárt vagy egy profi SQL-raktárt.

  9. Kattintson a Létrehozás gombra.

További feladatok hozzáadása távoli Git-adattárból

A többfeladatos feladatok további tevékenységei az alábbi módok egyikével hivatkozhatnak ugyanarra a véglegesítésre a távoli adattárban:

  • shagit_branch mikor $branch/head van beállítva
  • shagit_tag mikor $tag van beállítva
  • az érték git_commit

Az Azure Databricks-feladatokban a jegyzetfüzet- és Python-feladatokat kombinálhatja, de ugyanazt a Git-referenciát kell használniuk.

Databricks Git-mappa használata

Ha az Azure Databricks felhasználói felületét szeretné használni a forráskód verziókövetéséhez, klónozza az adattárat egy Databricks Git-mappába. További információ : 2. lehetőség: Éles Git-mappa és Git Automation beállítása.

Ha egy feladatfeladat Git-mappájából szeretne jegyzetfüzetet vagy Python-kódot hozzáadni, a Forrás legördülő menüben válassza a Munkaterület lehetőséget, és adja meg a jegyzetfüzet vagy Python-kód elérési útját az Elérési úton.

Jegyzetfüzetek elérése IDE-ből

Ha integrált fejlesztési környezetből kell hozzáférnie a jegyzetfüzetekhez, győződjön meg arról, hogy a megjegyzés # Databricks notebook source a jegyzetfüzet forráskódfájljának tetején található. A normál Python-fájlok és a forráskód formátumban exportált Azure Databricks Python-nyelvű jegyzetfüzetek megkülönböztetéséhez a Databricks hozzáadja a vonalat # Databricks notebook source a jegyzetfüzet forráskódfájljának tetején. Amikor importálja a jegyzetfüzetet, az Azure Databricks felismeri és importálja jegyzetfüzetként, nem Python-modulként.

Hibaelhárítás

Feljegyzés

A Git-alapú feladatok nem támogatják a munkaterületfájlok írási hozzáférését. Ha ideiglenes tárolóhelyre szeretne adatokat írni, használja az illesztőprogram-tárolót. Ha állandó adatokat szeretne írni Egy Git-feladatból, használjon UC-kötetet vagy DBFS-t.

Hibaüzenet:

Run result unavailable: job failed with error message Notebook not found: path-to-your-notebook

Lehetséges okok:

A jegyzetfüzetből hiányzik a megjegyzés # Databricks notebook source a jegyzetfüzet forráskódfájljának tetején, vagy a megjegyzésben notebook kisbetűvel nkell kezdődnie.