Megosztás a következőn keresztül:


Csatlakozás a dbt Core-hoz

Ez a cikk ismerteti a dbt használatát, a dbt Core telepítését és a csatlakozás módját. A dbt üzemeltetett verziója, a dbt Cloud is elérhető. További információ: Csatlakozás a dbt Cloudhoz.

Mi az a dbt?

A dbt (adat-összeállítási eszköz) egy fejlesztési környezet, amely a választó utasítások írásával alakítja át az adatokat. A dbt ezeket a kijelölési utasításokat táblákká és nézetekké alakítja. a dbt a kódot nyers SQL-be fordítja, majd lefuttatja a kódot az Azure Databricks megadott adatbázisán. A dbt támogatja az együttműködésen alapuló kódolási mintákat és ajánlott eljárásokat, beleértve a verziókövetést, a dokumentációt és a modularitást.

A dbt nem nyer ki és nem tölt be adatokat. A dbt csak az átalakítási lépésre összpontosít, egy "átalakítás betöltése után" architektúrával. a dbt feltételezi, hogy már van egy másolat az adatokról az adatbázisban.

A dbt Core lehetővé teszi a dbt-kód írását a helyi fejlesztőgépen a választott IDE-ben, majd futtathatja a dbt-et a parancssorból. a dbt Core tartalmazza a dbt parancssori felületet (CLI). A dbt CLI szabadon használható és nyílt forráskód.

A dbt Core (és a dbt Cloud) üzemeltetett Git-adattárakat használhat. További információ: Dbt-projekt létrehozása és meglévő projekt használata a dbt webhelyén.

Telepítési követelmények

A dbt Core telepítése előtt telepítenie kell a következőket a helyi fejlesztőgépre:

  • Python 3.7 vagy újabb
  • Segédprogram Python virtuális környezetek (például pipenv) létrehozásához

A hitelesítéshez az alábbiak egyikére is szüksége van:

  • (Ajánlott) A dbt Core OAuth-alkalmazásként engedélyezve van a fiókjában. Ez alapértelmezés szerint engedélyezve van.

  • Személyes hozzáférési jogkivonat

    Feljegyzés

    A Databricks ajánlott biztonsági eljárásként, amikor automatizált eszközökkel, rendszerekkel, szkriptekkel és alkalmazásokkal hitelesít, az OAuth-jogkivonatok használatát javasolja.

    Ha személyes hozzáférési jogkivonat-hitelesítést használ, a Databricks a munkaterület felhasználói helyett a szolgáltatásnevekhez tartozó személyes hozzáférési jogkivonatokat javasolja. A szolgáltatásnevek jogkivonatainak létrehozásáról a szolgáltatásnév jogkivonatainak kezelése című témakörben olvashat.

1. lépés: A dbt Databricks-adapter telepítése

Javasoljuk, hogy pythonos virtuális környezetet használjon, mert elkülöníti a csomagverziókat és a kódfüggőségeket az adott környezethez, függetlenül attól, hogy a csomagverziók és a kód függőségei más környezetekben vannak-e. Ez segít csökkenteni a csomagverziók váratlan eltéréseit és a kódfüggőség ütközéseit.

A Databricks a dbt-databricks csomag 1.8.0-s vagy újabb verzióját javasolja.

.. fontos:: Ha a helyi fejlesztőgép a következő operációs rendszerek bármelyikét használja, először további lépéseket kell végrehajtania: CentOS, MacOS, Ubuntu, Debian és Windows. Lásd a "Rendelkezik az operációs rendszerem előfeltételei" című szakaszt a Dbt Labs webhelyén való telepítéshez használt pip használatával.

2. lépés: Dbt-projekt létrehozása, valamint kapcsolati beállítások megadása és tesztelése

Dbt-projekt létrehozása (a dbt használatához szükséges kapcsolódó könyvtárak és fájlok gyűjteménye). Ezután konfigurálhatja a kapcsolatprofilokat, amelyek kapcsolati beállításokat tartalmaznak egy Azure Databricks-számításhoz, egy SQL-raktárhoz vagy mindkettőhöz. A biztonság növelése érdekében a dbt-projektek és -profilok alapértelmezés szerint külön helyeken vannak tárolva.

  1. Ha a virtuális környezet továbbra is aktiválva van, futtassa a dbt init parancsot a projekt nevével. Ez a példaeljárás létrehoz egy projektet my_dbt_demo.

    dbt init my_dbt_demo
    
  2. Amikor a rendszer kérni fogja egy adatbázis vagy spark adatbázis kiválasztásátdatabricks, adja meg a megfelelő databricksszámot.

  3. Amikor a rendszer egy érték megadását host kéri, tegye a következőket:

  4. Amikor a rendszer egy érték megadását http_path kéri, tegye a következőket:

  5. Hitelesítési típus kiválasztásához adja meg a (javasolt) vagy use access tokena (javasolt) számnak megfelelő use oauth számot.

  6. Ha a hitelesítési típust választotta use access token , adja meg az Azure Databricks személyes hozzáférési jogkivonatának értékét.

    Feljegyzés

    Ajánlott biztonsági eljárásként, ha automatizált eszközökkel, rendszerekkel, szkriptekkel és alkalmazásokkal hitelesít, a Databricks azt javasolja, hogy munkaterület-felhasználók helyett a szolgáltatásnevekhez tartozó személyes hozzáférési jogkivonatokat használja. A szolgáltatásnevek jogkivonatainak létrehozásáról a szolgáltatásnév jogkivonatainak kezelése című témakörben olvashat.

  7. Amikor a rendszer kéri az desired Unity Catalog option értéket, adja meg a számot, amely megfelel use Unity Catalog a következőnek: vagy not use Unity Catalog.

  8. Ha a Unity Catalog használatát választotta, adja meg a kívánt értéket catalog , amikor a rendszer kéri.

  9. Adja meg a kívánt értékeket, schema és threads amikor a rendszer kéri.

  10. A dbt fájlba profiles.yml írja a bejegyzéseket. A fájl helye megjelenik a parancs kimenetében dbt init . Ezt a helyet később a parancs futtatásával dbt debug --config-dir is listázhatja. Most megnyithatja ezt a fájlt a fájl tartalmának vizsgálatához és ellenőrzéséhez.

    Ha a hitelesítési típust választottause oauth, adja hozzá a gépről gépre (M2M) vagy a felhasználó–gép (U2M) hitelesítési profilt.profiles.yml

    Példák : Az Azure Databricks bejelentkezésének konfigurálása a dbt Core-ból a Microsoft Entra-azonosítóval.

    A Databricks nem javasolja a titkos kódok közvetlen megadását profiles.yml . Ehelyett állítsa be az ügyfélazonosítót és az ügyfél titkos kódját környezeti változókként.

  11. Erősítse meg a kapcsolat részleteit a dbt debug könyvtár parancsának my_dbt_demo futtatásával.

    Ha a hitelesítési típust választotta use oauth , a rendszer kérni fogja, hogy jelentkezzen be az identitásszolgáltatójával.

    Fontos

    Mielőtt hozzákezdene, ellenőrizze, hogy fut-e a számítási vagy AZ SQL-raktár.

    A következőhöz hasonló kimenetnek kell megjelennie:

    cd my_dbt_demo
    dbt debug
    
    ...
    Configuration:
      profiles.yml file [OK found and valid]
      dbt_project.yml file [OK found and valid]
    
    Required dependencies:
      - git [OK found]
    
    Connection:
      ...
      Connection test: OK connection ok
    

Következő lépések

További erőforrások