Sdílet prostřednictvím


Připojení k dbt Core

Tento článek vysvětluje, co je dbt, jak nainstalovat dbt Core a jak se připojit. K dispozici je také hostovaná verze dbt označovaná jako dbt Cloud. Další informace najdete v tématu Připojení ke službě dbt Cloud.

Co je dbt?

dbt (nástroj pro sestavení dat) je vývojové prostředí pro transformaci dat zápisem příkazů select. Dbt tyto příkazy select změní na tabulky a zobrazení. dbt zkompiluje váš kód do nezpracovaného SQL a potom tento kód spustí v zadané databázi v Azure Databricks. Dbt podporuje vzory a osvědčené postupy pro spolupráci, včetně správy verzí, dokumentace a modularity.

dbt neextrahuje ani nenačítá data. Dbt se zaměřuje pouze na krok transformace s využitím architektury transformace po načtení. dbt předpokládá, že už máte kopii dat v databázi.

Dbt Core umožňuje psát kód dbt v integrovaném vývojovém prostředí podle vašeho výběru na místním vývojovém počítači a pak spustit dbt z příkazového řádku. dbt Core obsahuje rozhraní příkazového řádku dbt (CLI). Rozhraní příkazového řádku dbt je bezplatné pro použití a open source.

Dbt Core (a dbt Cloud) může používat hostovaná úložiště Git. Další informace naleznete v tématu Vytvoření projektu dbt a Použití existujícího projektu na webu dbt.

Požadavky na instalaci

Před instalací dbt Core musíte na místní vývojový počítač nainstalovat následující:

  • Python 3.7 nebo vyšší
  • Nástroj pro vytváření virtuálních prostředí Pythonu (například pipenv)

K ověření potřebujete také jednu z těchto možností:

  • (Doporučeno) Dbt Core je ve vašem účtu povolené jako aplikace OAuth. Ve výchozím nastavení je tahle možnost povolená.

  • Osobní přístupový token

    Poznámka:

    Jako osvědčený postup zabezpečení při ověřování pomocí automatizovaných nástrojů, systémů, skriptů a aplikací doporučuje Databricks používat tokeny OAuth.

    Pokud používáte ověřování pomocí osobního přístupového tokenu, databricks místo uživatelů pracovního prostoru doporučuje používat osobní přístupové tokeny patřící instančním objektům. Pokud chcete vytvořit tokeny pro instanční objekty, přečtěte si téma Správa tokenů instančního objektu.

Krok 1: Instalace adaptéru dbt Databricks

Doporučujeme použít virtuální prostředí Pythonu, protože izoluje verze balíčků a závislosti kódu do daného konkrétního prostředí bez ohledu na verze balíčků a závislosti kódu v jiných prostředích. To pomáhá snížit neočekávané neshody verzí balíčků a kolize závislostí kódu.

Databricks doporučuje verzi 1.8.0 nebo vyšší balíčku dbt-databricks.

.. důležité:: Pokud místní vývojový počítač používá některý z následujících operačních systémů, musíte nejprve provést další kroky: CentOS, MacOS, Ubuntu, Debian a Windows. Viz část "Má můj operační systém předpoklady" v části Použití pip k instalaci dbt na webu dbt Labs.

Krok 2: Vytvoření projektu dbt a zadání a testování nastavení připojení

Vytvořte projekt dbt (kolekci souvisejících adresářů a souborů potřebných k použití dbt). Potom nakonfigurujete profily připojení, které obsahují nastavení připojení k výpočetnímu prostředí Azure Databricks, SQL Warehouse nebo obojímu. Pro zvýšení zabezpečení se projekty a profily dbt ve výchozím nastavení ukládají do samostatných umístění.

  1. Pokud je virtuální prostředí stále aktivované, spusťte příkaz dbt init s názvem projektu. Tento příklad procedury vytvoří projekt s názvem my_dbt_demo.

    dbt init my_dbt_demo
    
  2. Po zobrazení výzvy k výběru databricks nebo spark databáze zadejte číslo, které odpovídá databricks.

  3. Po zobrazení výzvy k host zadání hodnoty postupujte takto:

    • Pro výpočetní prostředky zadejte hodnotu názvu hostitele serveru na kartě Upřesnit možnosti JDBC/ODBC pro výpočetní prostředky Azure Databricks.
    • V případě SQL Warehouse zadejte hodnotu název hostitele serveru na kartě Podrobnosti připojení pro váš SQL Warehouse.
  4. Po zobrazení výzvy k http_path zadání hodnoty udělejte toto:

  5. Pokud chcete zvolit typ ověřování, zadejte číslo odpovídající use oauth (doporučeno) nebo use access token.

  6. Pokud jste zvolili use access token typ ověřování, zadejte hodnotu osobního přístupového tokenu Azure Databricks.

    Poznámka:

    Osvědčeným postupem při ověřování pomocí automatizovaných nástrojů, systémů, skriptů a aplikací doporučuje Databricks místo uživatelů pracovního prostoru používat tokeny patního přístupu, které patří instančním objektům . Pokud chcete vytvořit tokeny pro instanční objekty, přečtěte si téma Správa tokenů instančního objektu.

  7. Po zobrazení výzvy k zadání desired Unity Catalog option hodnoty zadejte číslo, které odpovídá use Unity Catalog hodnotě nebo not use Unity Catalog.

  8. Pokud jste se rozhodli použít Katalog Unity, zadejte po zobrazení výzvy požadovanou hodnotu catalog .

  9. Zadejte požadované hodnoty pro schema a threads po zobrazení výzvy.

  10. Dbt zapíše položky do profiles.yml souboru. Umístění tohoto souboru je uvedené ve výstupu dbt init příkazu. Toto umístění můžete zobrazit také později spuštěním dbt debug --config-dir příkazu. Tento soubor teď můžete otevřít, abyste prozkoumali a ověřili jeho obsah.

    Pokud jste zvolili use oauth typ ověřování, přidejte do počítače (M2M) nebo profilu profiles.ymlověřování uživatele na počítač (U2M).

    Příklady najdete v tématu Konfigurace přihlašování k Azure Databricks z dbt Core pomocí ID Microsoft Entra.

    Databricks nedoporučuje zadávat tajné kódy profiles.yml přímo. Místo toho nastavte ID klienta a tajný klíč klienta jako proměnné prostředí.

  11. Podrobnosti o připojení potvrďte spuštěním dbt debug příkazu v my_dbt_demo adresáři.

    Pokud jste zvolili use oauth typ ověřování, zobrazí se výzva k přihlášení pomocí zprostředkovatele identity.

    Důležité

    Než začnete, ověřte, že je výpočetní prostředky nebo SQL Warehouse spuštěné.

    Zobrazený výstup by měl vypadat přibližně takto:

    cd my_dbt_demo
    dbt debug
    
    ...
    Configuration:
      profiles.yml file [OK found and valid]
      dbt_project.yml file [OK found and valid]
    
    Required dependencies:
      - git [OK found]
    
    Connection:
      ...
      Connection test: OK connection ok
    

Další kroky

  • Místně vytvořte, spusťte a otestujte modely dbt Core. Podívejte se na kurz dbt Core.
  • Spouštějte projekty dbt Core jako úlohy Azure Databricks. Viz Použití transformací dbt v úloze Azure Databricks.

Další materiály