Připojení k dbt Core
Tento článek vysvětluje, co je dbt, jak nainstalovat dbt Core a jak se připojit. K dispozici je také hostovaná verze dbt označovaná jako dbt Cloud. Další informace najdete v tématu Připojení ke službě dbt Cloud.
Co je dbt?
dbt (nástroj pro sestavení dat) je vývojové prostředí pro transformaci dat zápisem příkazů select. Dbt tyto příkazy select změní na tabulky a zobrazení. dbt zkompiluje váš kód do nezpracovaného SQL a potom tento kód spustí v zadané databázi v Azure Databricks. Dbt podporuje vzory a osvědčené postupy pro spolupráci, včetně správy verzí, dokumentace a modularity.
dbt neextrahuje ani nenačítá data. Dbt se zaměřuje pouze na krok transformace s využitím architektury transformace po načtení. dbt předpokládá, že už máte kopii dat v databázi.
Dbt Core umožňuje psát kód dbt v integrovaném vývojovém prostředí podle vašeho výběru na místním vývojovém počítači a pak spustit dbt z příkazového řádku. dbt Core obsahuje rozhraní příkazového řádku dbt (CLI). Rozhraní příkazového řádku dbt je bezplatné pro použití a open source.
Dbt Core (a dbt Cloud) může používat hostovaná úložiště Git. Další informace naleznete v tématu Vytvoření projektu dbt a Použití existujícího projektu na webu dbt.
Požadavky na instalaci
Před instalací dbt Core musíte na místní vývojový počítač nainstalovat následující:
K ověření potřebujete také jednu z těchto možností:
(Doporučeno) Dbt Core je ve vašem účtu povolené jako aplikace OAuth. Ve výchozím nastavení je tahle možnost povolená.
Osobní přístupový token
Poznámka:
Jako osvědčený postup zabezpečení při ověřování pomocí automatizovaných nástrojů, systémů, skriptů a aplikací doporučuje Databricks používat tokeny OAuth.
Pokud používáte ověřování pomocí osobního přístupového tokenu, databricks místo uživatelů pracovního prostoru doporučuje používat osobní přístupové tokeny patřící instančním objektům. Pokud chcete vytvořit tokeny pro instanční objekty, přečtěte si téma Správa tokenů instančního objektu.
Krok 1: Instalace adaptéru dbt Databricks
Doporučujeme použít virtuální prostředí Pythonu, protože izoluje verze balíčků a závislosti kódu do daného konkrétního prostředí bez ohledu na verze balíčků a závislosti kódu v jiných prostředích. To pomáhá snížit neočekávané neshody verzí balíčků a kolize závislostí kódu.
Databricks doporučuje verzi 1.8.0 nebo vyšší balíčku dbt-databricks.
.. důležité:: Pokud místní vývojový počítač používá některý z následujících operačních systémů, musíte nejprve provést další kroky: CentOS, MacOS, Ubuntu, Debian a Windows. Viz část "Má můj operační systém předpoklady" v části Použití pip k instalaci dbt na webu dbt Labs.
Krok 2: Vytvoření projektu dbt a zadání a testování nastavení připojení
Vytvořte projekt dbt (kolekci souvisejících adresářů a souborů potřebných k použití dbt). Potom nakonfigurujete profily připojení, které obsahují nastavení připojení k výpočetnímu prostředí Azure Databricks, SQL Warehouse nebo obojímu. Pro zvýšení zabezpečení se projekty a profily dbt ve výchozím nastavení ukládají do samostatných umístění.
Pokud je virtuální prostředí stále aktivované, spusťte příkaz dbt init s názvem projektu. Tento příklad procedury vytvoří projekt s názvem
my_dbt_demo
.dbt init my_dbt_demo
Po zobrazení výzvy k výběru
databricks
nebospark
databáze zadejte číslo, které odpovídádatabricks
.Po zobrazení výzvy k
host
zadání hodnoty postupujte takto:- Pro výpočetní prostředky zadejte hodnotu názvu hostitele serveru na kartě Upřesnit možnosti JDBC/ODBC pro výpočetní prostředky Azure Databricks.
- V případě SQL Warehouse zadejte hodnotu název hostitele serveru na kartě Podrobnosti připojení pro váš SQL Warehouse.
Po zobrazení výzvy k
http_path
zadání hodnoty udělejte toto:- Pro výpočetní prostředky zadejte hodnotu cesty HTTP z karty Upřesnit možnosti, karta JDBC/ODBC pro výpočetní prostředky Azure Databricks.
- V případě SQL Warehouse zadejte hodnotu cesty HTTP na kartě Podrobnosti připojení pro váš SQL Warehouse.
Pokud chcete zvolit typ ověřování, zadejte číslo odpovídající
use oauth
(doporučeno) nebouse access token
.Pokud jste zvolili
use access token
typ ověřování, zadejte hodnotu osobního přístupového tokenu Azure Databricks.Poznámka:
Osvědčeným postupem při ověřování pomocí automatizovaných nástrojů, systémů, skriptů a aplikací doporučuje Databricks místo uživatelů pracovního prostoru používat tokeny patního přístupu, které patří instančním objektům . Pokud chcete vytvořit tokeny pro instanční objekty, přečtěte si téma Správa tokenů instančního objektu.
Po zobrazení výzvy k zadání
desired Unity Catalog option
hodnoty zadejte číslo, které odpovídáuse Unity Catalog
hodnotě nebonot use Unity Catalog
.Pokud jste se rozhodli použít Katalog Unity, zadejte po zobrazení výzvy požadovanou hodnotu
catalog
.Zadejte požadované hodnoty pro
schema
athreads
po zobrazení výzvy.Dbt zapíše položky do
profiles.yml
souboru. Umístění tohoto souboru je uvedené ve výstupudbt init
příkazu. Toto umístění můžete zobrazit také později spuštěnímdbt debug --config-dir
příkazu. Tento soubor teď můžete otevřít, abyste prozkoumali a ověřili jeho obsah.Pokud jste zvolili
use oauth
typ ověřování, přidejte do počítače (M2M) nebo profiluprofiles.yml
ověřování uživatele na počítač (U2M).Příklady najdete v tématu Konfigurace přihlašování k Azure Databricks z dbt Core pomocí ID Microsoft Entra.
Databricks nedoporučuje zadávat tajné kódy
profiles.yml
přímo. Místo toho nastavte ID klienta a tajný klíč klienta jako proměnné prostředí.Podrobnosti o připojení potvrďte spuštěním
dbt debug
příkazu vmy_dbt_demo
adresáři.Pokud jste zvolili
use oauth
typ ověřování, zobrazí se výzva k přihlášení pomocí zprostředkovatele identity.Důležité
Než začnete, ověřte, že je výpočetní prostředky nebo SQL Warehouse spuštěné.
Zobrazený výstup by měl vypadat přibližně takto:
cd my_dbt_demo dbt debug
... Configuration: profiles.yml file [OK found and valid] dbt_project.yml file [OK found and valid] Required dependencies: - git [OK found] Connection: ... Connection test: OK connection ok
Další kroky
- Místně vytvořte, spusťte a otestujte modely dbt Core. Podívejte se na kurz dbt Core.
- Spouštějte projekty dbt Core jako úlohy Azure Databricks. Viz Použití transformací dbt v úloze Azure Databricks.