Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Poznámka:
Tento článek pojednává o Databricks Connect pro Databricks Runtime verze 13.3 LTS a novější.
Databricks Connect umožňuje připojení k výpočetním prostředkům Databricks z místního vývojového prostředí mimo Databricks. Pak můžete vyvíjet, ladit a testovat kód přímo z integrovaného vývojového prostředí (IDE) před přesunutím kódu do poznámkového bloku nebo úlohy v Databricks. Podívejte se na Co je Databricks Connect?.
Přenosnost
Aby přechod z místního vývoje na nasazení do Databricks byl bezproblémový, jsou všechna rozhraní API Databricks Connect dostupná v poznámkových blocích Databricks jako součást odpovídajícího modulu Databricks Runtime. To vám umožní spouštět kód v poznámkovém bloku Databricks bez jakýchkoli změn kódu.
Chování „DatabricksSession“
Chování DatabricksSession se mírně liší při použití Databricks Connect v místním vývojovém prostředí a v poznámkových blocích a úlohách v pracovním prostoru Databricks.
Chování místního vývojového prostředí
Při místním spuštění kódu v integrovaném vývojovém prostředí mimo Databricks DatabricksSession.builder.getOrCreate() získá existující relaci Sparku pro zadanou konfiguraci, pokud existuje, nebo pokud neexistuje, vytvoří novou relaci Sparku.
DatabricksSession.builder.create() vždy vytvoří novou relaci Sparku. Parametry připojení, jako jsou host, tokena cluster_id, se naplní zdrojovým kódem, proměnnými prostředí nebo souborem konfiguračních profilů .databrickscfg.
Jinými slovy, při spuštění pomocí Databricks Connect vytvoří následující kód dvě samostatné relace:
spark1 = DatabricksSession.builder.create()
spark2 = DatabricksSession.builder.create()
Chování pracovního prostoru Databricks
Při spouštění kódu v poznámkovém bloku nebo úloze v pracovním prostoru Databricks DatabricksSession.builder.getOrCreate() vrátí výchozí relaci Sparku (přístupná také prostřednictvím proměnné spark), pokud se použije bez jakékoli další konfigurace. Proměnná spark je předem nakonfigurovaná tak, aby se připojila k výpočetní instanci, ke které je připojený poznámkový blok nebo úloha. Nová relace Sparku se vytvoří, pokud jsou nastaveny další parametry připojení, například pomocí DatabricksSession.builder.clusterId(...).getOrCreate() nebo DatabricksSession.builder.serverless().getOrCreate().
DatabricksSession.builder.create() vyžaduje explicitní parametry připojení v poznámkovém bloku, například DatabricksSession.builder.clusterId(...).create(), jinak vrátí chybu [UNSUPPORTED].
Je možné použít Databricks Connect k připojení k výpočetním prostředkům Databricks, které nejsou připojené k notebooku nebo úloze, pomocí remote(). To využívá konfiguraci kwargs nebo jednotlivé konfigurační metody, jako jsou host() a token(). V těchto případech se vytvoří nová relace pro odkazované výpočetní prostředky, podobně jako když se používá mimo poznámkový blok nebo úlohy Databricks.
Poznámka:
U notebooků běžících na serverless výpočetních prostředcích vyprší časový limit dotazů standardně po 9000 sekundách. Toto nastavení můžete přizpůsobit nastavením vlastnosti konfigurace Sparku spark.databricks.execution.timeout. Viz Nastavení vlastností konfigurace Sparku v azure Databricks.