Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Tento článek popisuje, jak migrovat z Databricks Connect pro Databricks Runtime 12.2 LTS a níže do Databricks Connect pro Databricks Runtime 13.3 LTS a novější pro Python. Databricks Connect vám umožňuje připojit k clusterům Azure Databricks oblíbená integrovaná vývojová prostředí (IDE), servery pro poznámkové bloky a vlastní aplikace. Podívejte se, co je Databricks Connect?
Než začnete používat Databricks Connect, musíte nastavit klienta Databricks Connect.
Informace o verzi Scala tohoto článku najdete v tématu Migrace na Databricks Connect pro Scala.
Migrace projektu Pythonu
Pokud chcete migrovat existující projekt s kódem Pythonu nebo programovací prostředí z Databricks Connect pro Databricks Runtime 12.2 LTS a starší do Databricks Connect pro Databricks Runtime 13.3 LTS a novější:
Nainstalujte správnou verzi Pythonu uvedenou v požadavcích na instalaci tak, aby odpovídala vašemu clusteru Azure Databricks, pokud ještě není místně nainstalovaná.
Upgradujte virtuální prostředí Pythonu tak, aby v případě potřeby používalo správnou verzi Pythonu, aby odpovídalo vašemu clusteru. Pokyny najdete v dokumentaci poskytovatele virtuálního prostředí.
Po aktivaci virtuálního prostředí odinstalujte PySpark z vašeho virtuálního prostředí:
pip3 uninstall pysparkS aktivovaným virtuálním prostředím odinstalujte Databricks Connect pro Databricks Runtime 12.2 LTS a níže:
pip3 uninstall databricks-connectS aktivovaným virtuálním prostředím nainstalujte Databricks Connect pro Databricks Runtime 13.3 LTS a vyšší:
pip3 install --upgrade "databricks-connect==14.0.*" # Or X.Y.* to match your cluster version.Poznámka:
Databricks doporučuje, abyste připojili notaci "dot-asterisk" a specifikovali
databricks-connect==X.Y.*místodatabricks-connect=X.Y, abyste zajistili, že je nainstalován nejnovější balíček. I když to není požadavek, pomůže vám to zajistit, abyste pro tento cluster mohli používat nejnovější podporované funkce.Aktualizujte kód Pythonu tak, aby inicializoval proměnnou
spark(která představuje instanciDatabricksSessiontřídy, podobně jakoSparkSessionv PySpark). Viz Konfigurace výpočetních prostředků pro Databricks Connect.Přesuňte rozhraní API RDD, aby používala rozhraní API DataFrame, a migrujte
SparkContextk používání alternativ.
Nastavení konfigurací Hadoopu
Na klientovi můžete nastavit konfigurace Hadoop pomocí rozhraní spark.conf.set API, které platí pro operace SQL a DataFrame. Konfigurace Hadoopu nastavené na sparkContext musí být nastaveny v konfiguraci clusteru nebo pomocí poznámkového bloku. Důvodem je to, že konfigurace nastavené na sparkContext nejsou svázané s uživatelskými relacemi, ale vztahují se na celý cluster.