Sdílet prostřednictvím


Migrace na Databricks Connect pro Python

Tento článek popisuje, jak migrovat z Databricks Connect pro Databricks Runtime 12.2 LTS a níže do Databricks Connect pro Databricks Runtime 13.3 LTS a novější pro Python. Databricks Connect vám umožňuje připojit k clusterům Azure Databricks oblíbená integrovaná vývojová prostředí (IDE), servery pro poznámkové bloky a vlastní aplikace. Podívejte se, co je Databricks Connect?

Než začnete používat Databricks Connect, musíte nastavit klienta Databricks Connect.

Informace o verzi Scala tohoto článku najdete v tématu Migrace na Databricks Connect pro Scala.

Migrace projektu Pythonu

Pokud chcete migrovat existující projekt s kódem Pythonu nebo programovací prostředí z Databricks Connect pro Databricks Runtime 12.2 LTS a starší do Databricks Connect pro Databricks Runtime 13.3 LTS a novější:

  1. Nainstalujte správnou verzi Pythonu uvedenou v požadavcích na instalaci tak, aby odpovídala vašemu clusteru Azure Databricks, pokud ještě není místně nainstalovaná.

  2. Upgradujte virtuální prostředí Pythonu tak, aby v případě potřeby používalo správnou verzi Pythonu, aby odpovídalo vašemu clusteru. Pokyny najdete v dokumentaci poskytovatele virtuálního prostředí.

  3. Po aktivaci virtuálního prostředí odinstalujte PySpark z vašeho virtuálního prostředí:

    pip3 uninstall pyspark
    
  4. S aktivovaným virtuálním prostředím odinstalujte Databricks Connect pro Databricks Runtime 12.2 LTS a níže:

    pip3 uninstall databricks-connect
    
  5. S aktivovaným virtuálním prostředím nainstalujte Databricks Connect pro Databricks Runtime 13.3 LTS a vyšší:

    pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
    

    Poznámka:

    Databricks doporučuje, abyste připojili notaci "dot-asterisk" a specifikovali databricks-connect==X.Y.* místo databricks-connect=X.Y, abyste zajistili, že je nainstalován nejnovější balíček. I když to není požadavek, pomůže vám to zajistit, abyste pro tento cluster mohli používat nejnovější podporované funkce.

  6. Aktualizujte kód Pythonu tak, aby inicializoval proměnnou spark (která představuje instanci DatabricksSession třídy, podobně jako SparkSession v PySpark). Viz Konfigurace výpočetních prostředků pro Databricks Connect.

  7. Přesuňte rozhraní API RDD, aby používala rozhraní API DataFrame, a migrujte SparkContext k používání alternativ.

Nastavení konfigurací Hadoopu

Na klientovi můžete nastavit konfigurace Hadoop pomocí rozhraní spark.conf.set API, které platí pro operace SQL a DataFrame. Konfigurace Hadoopu nastavené na sparkContext musí být nastaveny v konfiguraci clusteru nebo pomocí poznámkového bloku. Důvodem je to, že konfigurace nastavené na sparkContext nejsou svázané s uživatelskými relacemi, ale vztahují se na celý cluster.