Sdílet prostřednictvím


Použití Eclipse s PyDev a Databricks Connect pro Python

Poznámka:

Tento článek popisuje Databricks Connect pro Databricks Runtime 13.3 LTS a vyšší.

Tento článek popisuje, jak používat Databricks Connect pro Scala a Eclipse s PyDev. Databricks Connect umožňuje připojit k clusterům Azure Databricks oblíbené prostředí IDEs, servery poznámkových bloků a další vlastní aplikace. Podívejte se, co je Databricks Connect?

Poznámka:

Než začnete používat Databricks Connect, musíte nastavit klienta Databricks Connect.

Pokud chcete používat Databricks Connect a Eclipse s PyDev, postupujte podle těchto pokynů.

  1. Spusťte Eclipse.
  2. Vytvořte projekt: klepněte na tlačítko Soubor nový projekt PyDev > PyDev projektu a potom klepněte na tlačítko Další.> > >
  3. Zadejte název projektu.
  4. V případě obsahu Projectu zadejte cestu k vašemu virtuálnímu prostředí Pythonu.
  5. Před zahájením konfigurace překladače klikněte na Tlačítko Konfigurovat interpret.
  6. Klepněte na tlačítko Ruční konfigurace.
  7. Klepněte na tlačítko Nový > vyhledat python/pypy exe.
  8. Vyhledejte a vyberte úplnou cestu k interpretu Pythonu, na který se odkazuje ve virtuálním prostředí, a klikněte na Otevřít.
  9. V dialogovém okně Vybrat interpret klepněte na tlačítko OK.
  10. V dialogovém okně Potřebný výběr klepněte na tlačítko OK.
  11. V dialogovém okně Předvolby klikněte na Použít a zavřít.
  12. V dialogovém okně Projekt PyDev klepněte na tlačítko Dokončit.
  13. Klikněte na Otevřít perspektivu.
  14. Přidejte do projektu soubor kódu Pythonu (.py), který obsahuje ukázkový kód nebo vlastní kód. Pokud používáte vlastní kód, musíte minimálně inicializovat DatabricksSession , jak je znázorněno v ukázkovém kódu.
  15. Když máte otevřený soubor kódu Pythonu, nastavte všechny zarážky, u kterých chcete, aby se kód při spuštění pozastavil.
  16. Pokud chcete kód spustit, klikněte na Spustit>. Veškerý kód Pythonu běží místně, zatímco veškerý kód PySpark zahrnující operace datového rámce běží v clusteru ve vzdáleném pracovním prostoru Azure Databricks a odpovědi na spuštění se odešlou zpět do místního volajícího.
  17. Pokud chcete kód ladit, klikněte na Spustit > ladění. Veškerý kód Pythonu je laděný místně, zatímco veškerý kód PySpark se bude dál spouštět v clusteru ve vzdáleném pracovním prostoru Azure Databricks. Základní kód modulu Spark nelze ladit přímo z klienta.

Konkrétnější pokyny ke spuštění a ladění najdete v tématu Spuštění programu.