Sdílet prostřednictvím


Připojení Databricks pro Python

Poznámka:

Tento článek se zabývá Připojení Databricks pro Databricks Runtime 13.0 a vyšší.

Tento článek ukazuje, jak rychle začít s Připojení Databricks pomocí Pythonu a PyCharmu.

Databricks Připojení umožňuje připojit k clusterům Azure Databricks oblíbená prostředí ID, jako jsou PyCharm, servery poznámkových bloků a další vlastní aplikace. Podívejte se, co je Databricks Připojení?.

Kurz

Pokud chcete tento kurz přeskočit a místo toho použít jiné integrované vývojové prostředí (IDE), přečtěte si další kroky.

Požadavky

K dokončení tohoto kurzu musíte splnit následující požadavky:

  • Váš cílový pracovní prostor a cluster Azure Databricks musí splňovat požadavky na konfiguraci clusteru pro Připojení Databricks.

  • Musíte mít k dispozici ID clusteru. Pokud chcete získat ID clusteru, klikněte v pracovním prostoru na bočním panelu na Compute a potom na název clusteru. V adresní řádku webového prohlížeče zkopírujte řetězec znaků mezi clusters adresou URL a configuration do adresy URL.

  • Máte nainstalovaný PyCharm . Tento kurz byl testován s PyCharm Community Edition 2023.3.5. Pokud používáte jinou verzi nebo edici PyCharm, můžou se následující pokyny lišit.

  • Na vývojovém počítači máte nainstalovaný Python 3 a podverze klientské instalace Pythonu je stejná jako podverze pythonové verze vašeho clusteru Azure Databricks. Následující tabulka uvádí verzi Pythonu nainstalovanou s jednotlivými moduly Databricks Runtime.

    Verze modulu Databricks Runtime Verze Pythonu
    15.0 ML,
    15.0
    3.11
    13.0 ML - 14.3 ML,
    13.0 - 14.3
    3,10

Krok 1: Konfigurace ověřování Azure Databricks

V tomto kurzu se k ověřování v pracovním prostoru Azure Databricks používá ověřování uživatele na počítač (U2M) Azure Databricks a konfigurační profil Azure Databricks. Pokud chcete místo toho použít jiný typ ověřování, přečtěte si téma Konfigurace vlastností připojení.

Konfigurace ověřování OAuth U2M vyžaduje rozhraní příkazového řádku Databricks následujícím způsobem:

  1. Pokud ještě není nainstalovaný, nainstalujte rozhraní příkazového řádku Databricks následujícím způsobem:

    Linux, macos

    Pomocí Homebrew nainstalujte Rozhraní příkazového řádku Databricks spuštěním následujících dvou příkazů:

    brew tap databricks/tap
    brew install databricks
    

    Windows

    K instalaci rozhraní příkazového řádku Databricks můžete použít winget, Chocolatey nebo Subsystém Windows pro Linux (WSL). Pokud nemůžete použít winget, Chocolatey nebo WSL, měli byste tento postup přeskočit a místo toho použít příkazový řádek nebo PowerShell k instalaci rozhraní příkazového řádku Databricks ze zdroje .

    Poznámka:

    Instalace Rozhraní příkazového řádku Databricks s Chocolatey je experimentální.

    Pokud chcete použít winget k instalaci rozhraní příkazového řádku Databricks, spusťte následující dva příkazy a restartujte příkazový řádek:

    winget search databricks
    winget install Databricks.DatabricksCLI
    

    Pokud chcete k instalaci rozhraní příkazového řádku Databricks použít Chocolatey, spusťte následující příkaz:

    choco install databricks-cli
    

    Použití WSL k instalaci rozhraní příkazového řádku Databricks:

    1. Nainstalujte curl a zip prostřednictvím WSL. Další informace najdete v dokumentaci k operačnímu systému.

    2. Pomocí WSL nainstalujte rozhraní příkazového řádku Databricks spuštěním následujícího příkazu:

      curl -fsSL https://raw.githubusercontent.com/databricks/setup-cli/main/install.sh | sh
      
  2. Spuštěním následujícího příkazu ověřte, že je nainstalované rozhraní příkazového řádku Databricks, které zobrazuje aktuální verzi nainstalovaného rozhraní příkazového řádku Databricks. Tato verze by měla být 0.205.0 nebo vyšší:

    databricks -v
    

    Poznámka:

    Pokud spustíte databricks , ale zobrazí se chyba, například command not found: databricksnebo pokud spustíte databricks -v a zobrazí se číslo verze 0.18 nebo nižší, znamená to, že váš počítač nemůže najít správnou verzi spustitelného souboru rozhraní příkazového řádku Databricks. Pokud chcete tento problém vyřešit, přečtěte si téma Ověření instalace rozhraní příkazového řádku.

Následujícím způsobem zahajte ověřování OAuth U2M:

  1. Pomocí rozhraní příkazového řádku Databricks zahajte správu tokenů OAuth místně spuštěním následujícího příkazu pro každý cílový pracovní prostor.

    V následujícím příkazu nahraďte <workspace-url> adresou URL služby Azure Databricks pro jednotlivé pracovní prostory, například https://adb-1234567890123456.7.azuredatabricks.net.

    databricks auth login --configure-cluster --host <workspace-url>
    
  2. Rozhraní příkazového řádku Databricks vás vyzve k uložení informací, které jste zadali jako konfigurační profil Azure Databricks. Stisknutím klávesy Enter potvrďte navrhovaný název profilu nebo zadejte název nového nebo existujícího profilu. Všechny existující profily se stejným názvem se přepíšou informacemi, které jste zadali. Profily můžete použít k rychlému přepnutí kontextu ověřování napříč několika pracovními prostory.

    Pokud chcete získat seznam všech existujících profilů, v samostatném terminálu nebo příkazovém řádku spusťte příkaz databricks auth profilespomocí rozhraní příkazového řádku Databricks . Pokud chcete zobrazit existující nastavení konkrétního profilu, spusťte příkaz databricks auth env --profile <profile-name>.

  3. Ve webovém prohlížeči dokončete pokyny na obrazovce, abyste se přihlásili k pracovnímu prostoru Azure Databricks.

  4. V seznamu dostupných clusterů, které se zobrazí v terminálu nebo příkazovém řádku, vyberte cílový cluster Azure Databricks v pracovním prostoru pomocí šipky nahoru a šipky dolů a stiskněte Enter. Pokud chcete filtrovat seznam dostupných clusterů, můžete také zadat libovolnou část zobrazovaného názvu clusteru.

  5. Pokud chcete zobrazit aktuální hodnotu tokenu OAuth profilu a nadcházející časové razítko vypršení platnosti tokenu, spusťte jeden z následujících příkazů:

    • databricks auth token --host <workspace-url>
    • databricks auth token -p <profile-name>
    • databricks auth token --host <workspace-url> -p <profile-name>

    Pokud máte více profilů se stejnou --host hodnotou, možná budete muset zadat --host společně možnosti a -p pomoct rozhraní příkazového řádku Databricks najít správné odpovídající informace o tokenu OAuth.

Krok 2: Vytvoření projektu

  1. Spusťte PyCharm.
  2. V hlavní nabídce klikněte na Soubor > nový projekt.
  3. V dialogovém okně Nový projekt klikněte na Pure Python.
  4. V části Umístění klikněte na ikonu složky a podle pokynů na obrazovce zadejte cestu k novému projektu Pythonu.
  5. Ponechte vybranou možnost Vytvořit main.py uvítací skript .
  6. Pro typ interpreta klikněte na Project venv.
  7. Rozbalte verzi Pythonu a pomocí ikony složky nebo rozevíracího seznamu určete cestu k interpretu Pythonu z předchozích požadavků.
  8. Klikněte na Vytvořit.

Vytvoření projektu PyCharm

Krok 3: Přidání balíčku Připojení Databricks

  1. V hlavní nabídce PyCharm klepněte na příkaz Zobrazit nástroj Windows > Python Packages>.
  2. Do vyhledávacího pole zadejte databricks-connect.
  3. V seznamu úložišť PyPI klikněte na databricks-connect.
  4. V nejnovějším rozevíracím seznamu podokna výsledků vyberte verzi, která odpovídá verzi Databricks Runtime vašeho clusteru. Pokud má váš cluster například nainstalovaný Databricks Runtime 14.3, vyberte 14.3.1.
  5. Klikněte na Instalovat balíček.
  6. Po instalaci balíčku můžete okno Balíčky Pythonu zavřít.

Instalace balíčku Připojení Databricks

Krok 4: Přidání kódu

  1. V okně nástroje Project klikněte pravým tlačítkem na kořenovou složku projektu a klikněte na Nový > soubor Pythonu.

  2. Zadejte main.py a poklikejte na soubor Pythonu.

  3. Do souboru zadejte následující kód a v závislosti na názvu konfiguračního profilu ho uložte.

    Pokud má váš konfigurační profil z kroku 1 název DEFAULT, zadejte do souboru následující kód a pak soubor uložte:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

    Pokud váš konfigurační profil z kroku 1 není pojmenovaný DEFAULT, zadejte do souboru následující kód. Zástupný symbol <profile-name> nahraďte názvem konfiguračního profilu z kroku 1 a pak soubor uložte:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

Krok 5: Spuštění kódu

  1. Spusťte cílový cluster ve vzdáleném pracovním prostoru Azure Databricks.
  2. Po spuštění clusteru v hlavní nabídce klikněte na Spustit " > main".
  3. V okně nástroje Spustit (Zobrazit > nástroj Windows > Spustit) v hlavním podokně karty Spustit se zobrazí prvních 5 řádkůsamples.nyctaxi.trips.

Krok 6: Ladění kódu

  1. Když je cluster stále spuštěný, klikněte v předchozím kódu na hřbet vedle df.show(5) a nastavte zarážku.
  2. V hlavní nabídce klikněte na Spustit > ladění main.
  3. V okně Nástroje ladění (Zobrazit > nástroj Windows > Ladění) v podokně Proměnné ladicího programu rozbalte uzly proměnných df a Spark a procházejte informace o kódech df a spark proměnných.
  4. Na bočním panelu okna nástroje Ladění klikněte na zelenou šipku (Resume Program).
  5. V podokně Konzola na kartě Ladicí program se zobrazí prvních 5 řádkůsamples.nyctaxi.trips.

Ladění projektu PyCharm

Další kroky

Další informace o službě Databricks Připojení najdete v článcích, jako jsou následující: