Sdílet prostřednictvím


Nástroje Databricks s Využitím Databricks Connect pro Python

Poznámka:

Tento článek popisuje Databricks Connect pro Databricks Runtime 13.3 LTS a vyšší.

Tento článek popisuje, jak používat nástroje Databricks s Databricks Connect pro Python. Databricks Connect umožňuje připojit k clusterům Azure Databricks oblíbené prostředí IDEs, servery poznámkových bloků a vlastní aplikace. Podívejte se, co je Databricks Connect? Informace o verzi Scala tohoto článku najdete v tématu Nástroje Databricks s Databricks Connect pro Scala.

Poznámka:

Než začnete používat Databricks Connect, musíte nastavit klienta Databricks Connect.

Databricks Connect používáte pro přístup k nástrojům Databricks následujícím způsobem:

  • WorkspaceClient Pro přístup k nástrojům Databricks použijte proměnnou třídydbutils. Třída WorkspaceClient patří do sady Databricks SDK pro Python a je součástí Databricks Connect.
  • Slouží dbutils.fs k přístupu k nástroji Databricks Utilities fs .
  • Slouží dbutils.secrets k přístupu k nástroji Tajné kódy nástrojů Databricks.
  • Žádné funkce nástrojů Databricks jiné než předchozí nástroje jsou k dispozici prostřednictvím dbutils.

Tip

Zahrnutou sadu Databricks SDK pro Python můžete použít také pro přístup k libovolnému dostupnému rozhraní DATAbricks REST API, nejen k předchozím rozhraním API nástrojů Databricks. Viz databricks-sdk na PyPI.

Chcete-li inicializovat WorkspaceClient, musíte poskytnout dostatek informací pro ověření sady Databricks SDK s pracovním prostorem. Je například možné:

  • Pevně zakódujte adresu URL pracovního prostoru a přístupový token přímo v kódu a pak inicializujete WorkspaceClient následujícím způsobem. I když je tato možnost podporovaná, Databricks tuto možnost nedoporučuje , protože může zveřejnit citlivé informace, jako jsou přístupové tokeny, pokud je váš kód vrácený do správy verzí nebo jinak sdílený:

    from databricks.sdk import WorkspaceClient
    
    w = WorkspaceClient(host  = f"https://{retrieve_workspace_instance_name()}",
                        token = retrieve_token())
    
  • Vytvořte nebo zadejte konfigurační profil , který obsahuje pole host , tokena pak inicializovat WorkspaceClient následujícím způsobem:

    from databricks.sdk import WorkspaceClient
    
    w = WorkspaceClient(profile = "<profile-name>")
    
  • Nastavte proměnné DATABRICKS_HOST prostředí a DATABRICKS_TOKEN stejným způsobem je nastavte pro Databricks Connect a pak inicializovat WorkspaceClient následujícím způsobem:

    from databricks.sdk import WorkspaceClient
    
    w = WorkspaceClient()
    

Sada Databricks SDK pro Python nerozpozná SPARK_REMOTE proměnnou prostředí pro Databricks Connect.

Další možnosti ověřování Azure Databricks pro Sadu Databricks SDK pro Python a postup inicializace AccountClient v sadách DATAbricks SDK pro přístup k dostupným rozhraním Databricks REST API na úrovni účtu místo na úrovni pracovního prostoru najdete v sadě Databricks-sdk v PyPI.

Následující příklad ukazuje, jak pomocí sady Databricks SDK pro Python automatizovat nástroje Databricks. Tento příklad vytvoří soubor pojmenovaný zzz_hello.txt v cestě ke svazku Katalogu Unity v pracovním prostoru, přečte data ze souboru a pak soubor odstraní. Tento příklad předpokládá, že proměnné DATABRICKS_HOST prostředí a DATABRICKS_TOKEN už jsou nastavené:

from databricks.sdk import WorkspaceClient

w = WorkspaceClient()

file_path = "/Volumes/main/default/my-volume/zzz_hello.txt"
file_data = "Hello, Databricks!"
fs = w.dbutils.fs

fs.put(
  file      = file_path,
  contents  = file_data,
  overwrite = True
)

print(fs.head(file_path))

fs.rm(file_path)

Viz také Interakce s dbutils v dokumentaci k sadě Databricks SDK pro Python.