Python için Databricks Connect'e geçiş

Bu makalede, Databricks Runtime 12.2 LTS için Databricks Connect Bağlantısı'ndan, Python için Databricks Runtime 13.3 LTS ve üzeri için Databricks Connect Bağlantısı'na nasıl geçileceği açıklanmaktadır. Databricks Connect popüler IDE'leri, not defteri sunucularını ve özel uygulamaları Azure Databricks kümelere bağlamanızı sağlar. Bkz. Databricks Connect.

Databricks Connect'i kullanmaya başlamadan önce Databricks Connect istemcisiniayarlamanız gerekir.

Bu makalenin Scala sürümü için bkz . Scala için Databricks Connect'e geçiş.

Python projenizi geçirme

Mevcut Python kod projenizi ya da kodlama ortamınızı Databricks Runtime 12.2 LTS ve altı için Databricks Connect'ten Databricks Runtime 13.3 LTS ve üzeri için olan Databricks Connect'e geçirmek için:

  1. Yerel olarak yüklü değilse, yükleme gereksinimlerinde listelenen doğru Python sürümünü Azure Databricks kümenizle eşleştirmek için yükleyin.

  2. gerekirse Python sanal ortamınızı, kümenizle eşleşecek şekilde doğru Python sürümünü kullanacak şekilde yükseltin. Yönergeler için sanal ortam sağlayıcınıza ait belgelere bakın.

  3. Sanal ortamınız etkinleştirildiğinde PySpark'ı sanal ortamınızdan kaldırın:

    pip3 uninstall pyspark
    
  4. Sanal ortamınız hala etkin durumdayken Databricks Runtime 12.2 LTS için Databricks Connect'i kaldırın ve aşağıdaki adımları izleyin:

    pip3 uninstall databricks-connect
    
  5. Sanal ortamınız hala etkinken Databricks Runtime 13.3 LTS ve üzeri için Databricks Connect'i yükleyin:

    pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
    

    Not

    Databricks, en son paketin yüklendiğinden emin olmak için databricks-connect==X.Y.* yerine databricks-connect=X.Y belirtmek amacıyla "nokta-yıldız" gösterimini eklemenizi önerir. Bu bir gereksinim olmasa da, bu küme için desteklenen en son özellikleri kullanabilmenize yardımcı olur.

  6. Python kodunuzu spark değişkenini başlatacak şekilde güncelleştirin (PySpark'ta DatabricksSession benzer şekilde SparkSession sınıfının örneğini temsil eder). Databricks Connect için işlem yapılandırmasına bakın.

  7. RDD API'lerinizi DataFrame API'lerini kullanacak şekilde geçirin ve SparkContext için alternatifleri kullanın.

Hadoop yapılandırmalarını ayarlama

İstemcide, SQL ve DataFrame işlemleri için geçerli olan spark.conf.set API'sini kullanarak Hadoop yapılandırmalarını ayarlayabilirsiniz. sparkContext üzerinde ayarlanan Hadoop yapılandırmaları, küme yapılandırmasında veya not defteri kullanılarak yapılmalıdır. Bunun nedeni, sparkContext'de ayarlanan yapılandırmaların kullanıcı oturumlarına bağlı olmaması, ancak kümenin tamamına uygulanmasıdır.