Nástroje Databricks s Využitím Databricks Connect pro Python
Poznámka:
Tento článek popisuje Databricks Connect pro Databricks Runtime 13.3 LTS a vyšší.
Tento článek popisuje, jak používat nástroje Databricks s Databricks Connect pro Python. Databricks Connect umožňuje připojit k clusterům Azure Databricks oblíbené prostředí IDEs, servery poznámkových bloků a vlastní aplikace. Podívejte se, co je Databricks Connect? Informace o verzi Scala tohoto článku najdete v tématu Nástroje Databricks s Databricks Connect pro Scala.
Poznámka:
Než začnete používat Databricks Connect, musíte nastavit klienta Databricks Connect.
Databricks Connect používáte pro přístup k nástrojům Databricks následujícím způsobem:
WorkspaceClient
Pro přístup k nástrojům Databricks použijte proměnnou třídydbutils
. TřídaWorkspaceClient
patří do sady Databricks SDK pro Python a je součástí Databricks Connect.- Slouží
dbutils.fs
k přístupu k nástroji Databricks Utilities fs . - Slouží
dbutils.secrets
k přístupu k nástroji Tajné kódy nástrojů Databricks. - Žádné funkce nástrojů Databricks jiné než předchozí nástroje jsou k dispozici prostřednictvím
dbutils
.
Tip
Zahrnutou sadu Databricks SDK pro Python můžete použít také pro přístup k libovolnému dostupnému rozhraní DATAbricks REST API, nejen k předchozím rozhraním API nástrojů Databricks. Viz databricks-sdk na PyPI.
Chcete-li inicializovat WorkspaceClient
, musíte poskytnout dostatek informací pro ověření sady Databricks SDK s pracovním prostorem. Je například možné:
Pevně zakódujte adresu URL pracovního prostoru a přístupový token přímo v kódu a pak inicializujete
WorkspaceClient
následujícím způsobem. I když je tato možnost podporovaná, Databricks tuto možnost nedoporučuje , protože může zveřejnit citlivé informace, jako jsou přístupové tokeny, pokud je váš kód vrácený do správy verzí nebo jinak sdílený:from databricks.sdk import WorkspaceClient w = WorkspaceClient(host = f"https://{retrieve_workspace_instance_name()}", token = retrieve_token())
Vytvořte nebo zadejte konfigurační profil , který obsahuje pole
host
,token
a pak inicializovatWorkspaceClient
následujícím způsobem:from databricks.sdk import WorkspaceClient w = WorkspaceClient(profile = "<profile-name>")
Nastavte proměnné
DATABRICKS_HOST
prostředí aDATABRICKS_TOKEN
stejným způsobem je nastavte pro Databricks Connect a pak inicializovatWorkspaceClient
následujícím způsobem:from databricks.sdk import WorkspaceClient w = WorkspaceClient()
Sada Databricks SDK pro Python nerozpozná SPARK_REMOTE
proměnnou prostředí pro Databricks Connect.
Další možnosti ověřování Azure Databricks pro Sadu Databricks SDK pro Python a postup inicializace AccountClient
v sadách DATAbricks SDK pro přístup k dostupným rozhraním Databricks REST API na úrovni účtu místo na úrovni pracovního prostoru najdete v sadě Databricks-sdk v PyPI.
Následující příklad ukazuje, jak pomocí sady Databricks SDK pro Python automatizovat nástroje Databricks. Tento příklad vytvoří soubor pojmenovaný zzz_hello.txt
v cestě ke svazku Katalogu Unity v pracovním prostoru, přečte data ze souboru a pak soubor odstraní. Tento příklad předpokládá, že proměnné DATABRICKS_HOST
prostředí a DATABRICKS_TOKEN
už jsou nastavené:
from databricks.sdk import WorkspaceClient
w = WorkspaceClient()
file_path = "/Volumes/main/default/my-volume/zzz_hello.txt"
file_data = "Hello, Databricks!"
fs = w.dbutils.fs
fs.put(
file = file_path,
contents = file_data,
overwrite = True
)
print(fs.head(file_path))
fs.rm(file_path)
Viz také Interakce s dbutils v dokumentaci k sadě Databricks SDK pro Python.