Sdílet prostřednictvím


Řešení potíží s Databricks Connect pro Python

Poznámka:

Tento článek popisuje Databricks Connect pro Databricks Runtime 13.3 LTS a vyšší.

Tento článek obsahuje informace o řešení potíží pro Databricks Connect pro Python. Databricks Connect umožňuje připojit k clusterům Azure Databricks oblíbené prostředí IDEs, servery poznámkových bloků a vlastní aplikace. Podívejte se, co je Databricks Connect? Informace o verzi Scala tohoto článku najdete v tématu Řešení potíží s Databricks Connect pro Scala.

Chyba: StatusCode.UNAVAILABLE, StatusCode.UNKNOWN, dns resolution failed nebo Received http2 header with status 500

Problém: Při pokusu o spuštění kódu pomocí Databricks Connect se zobrazí chybové zprávy obsahující řetězce, jako StatusCode.UNAVAILABLEje , StatusCode.UNKNOWN, DNS resolution failednebo Received http2 header with status: 500.

Možná příčina: Databricks Connect se nemůže spojit s vaším clusterem.

Doporučená řešení:

  • Zkontrolujte, jestli je název instance pracovního prostoru správný. Pokud používáte proměnné prostředí, zkontrolujte, jestli je související proměnná prostředí dostupná a správná na místním vývojovém počítači.
  • Zkontrolujte, jestli je ID clusteru správné. Pokud používáte proměnné prostředí, zkontrolujte, jestli je související proměnná prostředí dostupná a správná na místním vývojovém počítači.
  • Zkontrolujte, jestli má váš cluster správnou vlastní verzi clusteru, která je kompatibilní s Databricks Connect.

Neshoda verzí Pythonu

Zkontrolujte, jestli verze Pythonu, kterou používáte místně, má alespoň stejnou podverzi jako verze v clusteru (například 3.10.11 v porovnání 3.10.10 s OK nebo 3.9 3.10 ne).

Pokud máte místně nainstalovaných více verzí Pythonu, ujistěte se, že Databricks Connect používá správnou verzi, a to nastavením PYSPARK_PYTHON proměnné prostředí (například PYSPARK_PYTHON=python3).

Konfliktní instalace PySparku

Balíček databricks-connect je v konfliktu s PySpark. Obě instalace způsobí chyby při inicializaci kontextu Sparku v Pythonu. To se může projevit několika způsoby, včetně chyb "stream poškozený" nebo "třída nenalezena". Pokud máte v prostředí Pythonu nainstalovaný PySpark, před instalací databricks-connect se ujistěte, že je odinstalovaný. Po odinstalaci PySpark nezapomeňte plně znovu nainstalovat balíček Databricks Connect:

pip3 uninstall pyspark
pip3 uninstall databricks-connect
pip3 install --upgrade "databricks-connect==14.0.*"  # or X.Y.* to match your specific cluster version.

Konfliktní nebo chybějící PATH položka pro binární soubory

Je možné, že je vaše cesta nakonfigurovaná tak, aby příkazy spark-shell jako spouštěly některé jiné dříve nainstalované binární soubory místo těch, které jsou součástí Databricks Connect. Měli byste se ujistit, že binární soubory Databricks Connect mají přednost, nebo odeberte dříve nainstalované binární soubory.

Pokud nemůžete spouštět příkazy, jako spark-shellje , je také možné, že cesta nebyla automaticky nastavena pip3 install a budete muset přidat instalační bin dir do cesty ručně. Databricks Connect s IDEs je možné použít i v případě, že to není nastavené.

Syntaxe názvu souboru, názvu adresáře nebo popisku svazku ve Windows je nesprávná.

Pokud používáte Databricks Connect ve Windows a podívejte se na:

The filename, directory name, or volume label syntax is incorrect.

Databricks Connect se nainstaloval do adresáře s místem ve vaší cestě. Můžete to obejít tak, že se buď nainstalujete do cesty k adresáři bez mezer, nebo nakonfigurujete cestu pomocí krátkého názvu formuláře.