Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Poznámka:
Tento článek se vztahuje na Databricks Connect 15.4 LTS a vyšší.
Tento článek popisuje, jak vytvořit projekt v integrovaném vývojovém prostředí( IDE), nastavit virtuální prostředí, nainstalovat Databricks Connect pro Python a spustit kód na bezserverové výpočetní prostředky v pracovním prostoru Databricks.
Tento kurz používá Python 3.12 a Databricks Connect 16.4 LTS. Pokud chcete použít jiné verze Pythonu Databricks Connect, musí být kompatibilní. Podívejte se na matici podpory verzí.
Požadavky
K dokončení tohoto kurzu musí být splněny následující požadavky:
- Váš pracovní prostor, místní prostředí a výpočetní prostředí splňují požadavky pro Databricks Connect pro Python. Viz požadavky na využití Databricks Connect.
- Výpočetní prostředí bez serveru je ve vašem pracovním prostoru povolené. Viz Připojení k výpočetním prostředkům bez serveru.
- Máte nainstalovaný Python 3.12.
- Máte nainstalované integrované vývojové prostředí (IDE), například Visual Studio Code.
- Na místním počítači máte nainstalované rozhraní příkazového řádku Databricks. Viz Instalaci nebo aktualizaci rozhraní příkazového řádku Databricks.
Krok 1: Konfigurace ověřování Databricks
V tomto kurzu se k ověřování v pracovním prostoru Databricks používá ověřování uživatele a počítače (U2M) Databricks a konfigurační profil Databricks.
Pomocí Databricks CLI spusťte místní správu tokenů OAuth tak, že pro každý cílový pracovní prostor použijete následující příkaz. V následujícím příkazu nahraďte
<workspace-url>adresou URL instance pracovního prostoru Databricks, napříkladhttps://dbc-a1b2345c-d6e7.cloud.databricks.com.databricks auth login --host <workspace-url>Rozhraní příkazového řádku Databricks vás vyzve k uložení informací, které jste zadali jako konfigurační profil Databricks. Stisknutím klávesy
Enterpotvrďte navrhovaný název profilu nebo zadejte název nového nebo existujícího profilu. Databricks doporučuje použítDEFAULTjako název vašeho profilu.Ve webovém prohlížeči dokončete pokyny na obrazovce, abyste se přihlásili k pracovnímu prostoru Databricks.
Krok 2: Vytvoření nového virtuálního prostředí Pythonu
Vytvořte složku projektu a otevřete ji v integrovaném vývojovém prostředí ( IDE). Například v hlavní nabídce editoru Visual Studio Code klikněte naOtevřít složku>soubor>.
Otevřete okno terminálu v kořenové složce projektu. Například v hlavní nabídce editoru Visual Studio Code klepněte na příkaz Zobrazit>terminál.
Spuštěním následujícího příkazu v terminálu vytvořte virtuální prostředí pro projekt volaný
venvv kořenové složce projektu:python3.12 -m venv .venvAktivace virtuálního prostředí:
# Linux/Mac source .venv/bin/activate# Windows .venv\Scripts\activate
Krok 3: Instalace databricks Connect
Nainstalujte Databricks Connect. Informace o nejnovější vydané verzi Databricks Connect 16.4 najdete v tématu Databricks Connect pro Databricks Runtime 16.4.
pip install "databricks-connect==16.4.*"
Krok 4: Přidání kódu a spuštění
Přidání nového souboru
main.pyPythonu do projektuDo souboru zadejte následující kód, nahraďte zástupný symbol
<profile-name>názvem konfiguračního profilu z kroku 1 a pak soubor uložte. Výchozí název konfiguračního profilu jeDEFAULT.from databricks.connect import DatabricksSession spark = DatabricksSession.builder.serverless().profile("<profile-name>").getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)Spusťte kód pomocí následujícího příkazu:
python3 main.pyVrátí se pět řádků tabulky:
+--------------------+---------------------+-------------+-----------+---------+-----------+ |tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip| +--------------------+---------------------+-------------+-----------+----------+-----------+ | 2016-02-16 22:40:45| 2016-02-16 22:59:25| 5.35| 18.5| 10003| 11238| | 2016-02-05 16:06:44| 2016-02-05 16:26:03| 6.5| 21.5| 10282| 10001| | 2016-02-08 07:39:25| 2016-02-08 07:44:14| 0.9| 5.5| 10119| 10003| | 2016-02-29 22:25:33| 2016-02-29 22:38:09| 3.5| 13.5| 10001| 11222| | 2016-02-03 17:21:02| 2016-02-03 17:23:24| 0.3| 3.5| 10028| 10028| +--------------------+---------------------+-------------+-----------+----------+-----------+
Úspěšně jste spustili první dotaz na bezserverové výpočetní prostředky Databricks pomocí Databricks Connect z integrovaného vývojového prostředí (IDE).
Krok 5: Příprava kódu na produkční prostředí
V produkčních scénářích je důležité se vyhnout použití specifikací výpočetních prostředků v tvůrci relací Sparku. Pokud například nasadíte kód do klasického clusteru: Standard nebo Dedicated použijete .serverless() rozhraní API v tvůrci relací Sparku, vytvoří se nová bezserverová relace Sparku pomocí klasického clusteru jako klienta.
Aby byl kód flexibilní a připravený pro produkční prostředí, neměla by relace Sparku obsahovat žádné parametry.
spark = DatabricksSession.builder.getOrCreate()
Pokud se ale tento kód spustí v Databricks, použije se výchozí globální relace Sparku výpočetních prostředků Databricks.
Pokud chcete ve svém integrovaném vývojovém prostředí povolit bezserverové výpočetní prostředky, použijte výchozí konfigurační profil, který je vybrán, DatabricksSession.builder pokud nejsou zadány žádné parametry:
Vytvořte konfigurační profil s názvem
DEFAULTpodle pokynů z kroku 1.Pomocí textového editoru
.databrickscfgotevřete soubor, který se nachází v:Domovská
$HOMEsložka uživatele v systémech Unix, Linux nebo macOS:~/.databrickscfgneboVaše
%USERPROFILE%(domovská stránka uživatele) ve Windows. Například pro macOS:nano ~/.databrickscfg
Přidat
serverless_compute_id = autodoDEFAULTprofilu:[DEFAULT] host = https://my-workspace.cloud.databricks.com auth_type = databricks-cli serverless_compute_id = autoUložte změny a ukončete editor.
Upravte kód tak, aby používal obecnou relaci Sparku, a spusťte ji:
from databricks.connect import DatabricksSession spark = DatabricksSession.builder.getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)python3 main.py
V bezserverovém výpočetním prostředí Databricks jste úspěšně spustili kód připravený pro produkční prostředí pomocí Databricks Connect z integrovaného vývojového prostředí (IDE) pomocí výchozího konfiguračního profilu.
Tip
Pomocí proměnných prostředí můžete také nastavit připojení ke konkrétnímu výpočetnímu prostředí Databricks:
- Bezserverová služba:
DATABRICKS_SERVERLESS_COMPUTE_ID=auto - Klasický:
DATABRICKS_CLUSTER_ID=<your_cluster_id>