Csatlakozás a dbt Core-hoz
Ez a cikk ismerteti a dbt használatát, a dbt Core telepítését és a csatlakozás módját. A dbt üzemeltetett verziója, a dbt Cloud is elérhető. További információ: Csatlakozás a dbt Cloudhoz.
Mi az a dbt?
A dbt (adat-összeállítási eszköz) egy fejlesztési környezet, amely a választó utasítások írásával alakítja át az adatokat. A dbt ezeket a kijelölési utasításokat táblákká és nézetekké alakítja. a dbt a kódot nyers SQL-be fordítja, majd lefuttatja a kódot az Azure Databricks megadott adatbázisán. A dbt támogatja az együttműködésen alapuló kódolási mintákat és ajánlott eljárásokat, beleértve a verziókövetést, a dokumentációt és a modularitást.
A dbt nem nyer ki és nem tölt be adatokat. A dbt csak az átalakítási lépésre összpontosít, egy "átalakítás betöltése után" architektúrával. a dbt feltételezi, hogy már van egy másolat az adatokról az adatbázisban.
A dbt Core lehetővé teszi a dbt-kód írását a helyi fejlesztőgépen a választott IDE-ben, majd futtathatja a dbt-et a parancssorból. a dbt Core tartalmazza a dbt parancssori felületet (CLI). A dbt CLI szabadon használható és nyílt forráskód.
A dbt Core (és a dbt Cloud) üzemeltetett Git-adattárakat használhat. További információ: Dbt-projekt létrehozása és meglévő projekt használata a dbt webhelyén.
Telepítési követelmények
A dbt Core telepítése előtt telepítenie kell a következőket a helyi fejlesztőgépre:
A hitelesítéshez az alábbiak egyikére is szüksége van:
(Ajánlott) A dbt Core OAuth-alkalmazásként engedélyezve van a fiókjában. Ez alapértelmezés szerint engedélyezve van.
Személyes hozzáférési jogkivonat
Feljegyzés
A Databricks ajánlott biztonsági eljárásként, amikor automatizált eszközökkel, rendszerekkel, szkriptekkel és alkalmazásokkal hitelesít, az OAuth-jogkivonatok használatát javasolja.
Ha személyes hozzáférési jogkivonat-hitelesítést használ, a Databricks a munkaterület felhasználói helyett a szolgáltatásnevekhez tartozó személyes hozzáférési jogkivonatokat javasolja. A szolgáltatásnevek jogkivonatainak létrehozásáról a szolgáltatásnév jogkivonatainak kezelése című témakörben olvashat.
1. lépés: A dbt Databricks-adapter telepítése
Javasoljuk, hogy pythonos virtuális környezetet használjon, mert elkülöníti a csomagverziókat és a kódfüggőségeket az adott környezethez, függetlenül attól, hogy a csomagverziók és a kód függőségei más környezetekben vannak-e. Ez segít csökkenteni a csomagverziók váratlan eltéréseit és a kódfüggőség ütközéseit.
A Databricks a dbt-databricks csomag 1.8.0-s vagy újabb verzióját javasolja.
.. fontos:: Ha a helyi fejlesztőgép a következő operációs rendszerek bármelyikét használja, először további lépéseket kell végrehajtania: CentOS, MacOS, Ubuntu, Debian és Windows. Lásd a "Rendelkezik az operációs rendszerem előfeltételei" című szakaszt a Dbt Labs webhelyén való telepítéshez használt pip használatával.
2. lépés: Dbt-projekt létrehozása, valamint kapcsolati beállítások megadása és tesztelése
Dbt-projekt létrehozása (a dbt használatához szükséges kapcsolódó könyvtárak és fájlok gyűjteménye). Ezután konfigurálhatja a kapcsolatprofilokat, amelyek kapcsolati beállításokat tartalmaznak egy Azure Databricks-számításhoz, egy SQL-raktárhoz vagy mindkettőhöz. A biztonság növelése érdekében a dbt-projektek és -profilok alapértelmezés szerint külön helyeken vannak tárolva.
Ha a virtuális környezet továbbra is aktiválva van, futtassa a dbt init parancsot a projekt nevével. Ez a példaeljárás létrehoz egy projektet
my_dbt_demo
.dbt init my_dbt_demo
Amikor a rendszer kérni fogja egy adatbázis vagy
spark
adatbázis kiválasztásátdatabricks
, adja meg a megfelelődatabricks
számot.Amikor a rendszer egy érték megadását
host
kéri, tegye a következőket:- Számítás esetén adja meg a Kiszolgáló állomásnév értékét az Azure Databricks-számítás speciális beállításainak JDBC/ODBC lapján.
- SQL-raktár esetén adja meg a Kiszolgáló állomásneve értéket az SQL Warehouse Kapcsolat részletei lapján.
Amikor a rendszer egy érték megadását
http_path
kéri, tegye a következőket:- Számítás esetén adja meg a HTTP-elérési út értékét az Azure Databricks-számítás speciális beállításainak JDBC/ODBC lapján.
- SQL-raktár esetén adja meg a HTTP-elérési út értékét az SQL Warehouse Kapcsolat részletei lapján.
Hitelesítési típus kiválasztásához adja meg a (javasolt) vagy
use access token
a (javasolt) számnak megfelelőuse oauth
számot.Ha a hitelesítési típust választotta
use access token
, adja meg az Azure Databricks személyes hozzáférési jogkivonatának értékét.Feljegyzés
Ajánlott biztonsági eljárásként, ha automatizált eszközökkel, rendszerekkel, szkriptekkel és alkalmazásokkal hitelesít, a Databricks azt javasolja, hogy munkaterület-felhasználók helyett a szolgáltatásnevekhez tartozó személyes hozzáférési jogkivonatokat használja. A szolgáltatásnevek jogkivonatainak létrehozásáról a szolgáltatásnév jogkivonatainak kezelése című témakörben olvashat.
Amikor a rendszer kéri az
desired Unity Catalog option
értéket, adja meg a számot, amely megfeleluse Unity Catalog
a következőnek: vagynot use Unity Catalog
.Ha a Unity Catalog használatát választotta, adja meg a kívánt értéket
catalog
, amikor a rendszer kéri.Adja meg a kívánt értékeket,
schema
ésthreads
amikor a rendszer kéri.A dbt fájlba
profiles.yml
írja a bejegyzéseket. A fájl helye megjelenik a parancs kimenetébendbt init
. Ezt a helyet később a parancs futtatásávaldbt debug --config-dir
is listázhatja. Most megnyithatja ezt a fájlt a fájl tartalmának vizsgálatához és ellenőrzéséhez.Ha a hitelesítési típust választotta
use oauth
, adja hozzá a gépről gépre (M2M) vagy a felhasználó–gép (U2M) hitelesítési profilt.profiles.yml
Példák : Az Azure Databricks bejelentkezésének konfigurálása a dbt Core-ból a Microsoft Entra-azonosítóval.
A Databricks nem javasolja a titkos kódok közvetlen megadását
profiles.yml
. Ehelyett állítsa be az ügyfélazonosítót és az ügyfél titkos kódját környezeti változókként.Erősítse meg a kapcsolat részleteit a
dbt debug
könyvtár parancsánakmy_dbt_demo
futtatásával.Ha a hitelesítési típust választotta
use oauth
, a rendszer kérni fogja, hogy jelentkezzen be az identitásszolgáltatójával.Fontos
Mielőtt hozzákezdene, ellenőrizze, hogy fut-e a számítási vagy AZ SQL-raktár.
A következőhöz hasonló kimenetnek kell megjelennie:
cd my_dbt_demo dbt debug
... Configuration: profiles.yml file [OK found and valid] dbt_project.yml file [OK found and valid] Required dependencies: - git [OK found] Connection: ... Connection test: OK connection ok
Következő lépések
- Dbt Core-modellek helyi létrehozása, futtatása és tesztelése. Tekintse meg a dbt Core oktatóanyagát.
- Dbt Core-projektek futtatása Azure Databricks-feladatfeladatként. Lásd: Dbt-átalakítások használata egy Azure Databricks-feladatban.