Aracılığıyla paylaş


Python için Databricks Connect'e geçiş

Bu makalede, Python için Databricks Runtime 12.2 LTS ve altındaki Databricks Connect'ten, Databricks Runtime 13.3 LTS ve üzeri için Databricks Connect'e nasıl geçiş yapılır açıklanır. Databricks Connect popüler IDE'leri, not defteri sunucularını ve özel uygulamaları Azure Databricks kümelerine bağlamanızı sağlar. Bkz. Databricks Connect nedir?.

Databricks Connect'i kullanmaya başlamadan önce Databricks Connect istemcisiniayarlamanız gerekir.

Bu makalenin Scala sürümü için bkz . Scala için Databricks Connect'e geçiş.

Python projenizi geçirme

Mevcut Python kod projenizi veya kodlama ortamınızı Databricks Runtime 12.2 LTS ve altındaki Databricks Connect'ten Databricks Runtime 13.3 LTS ve üzeri için Databricks Connect'e geçirmek için:

  1. Azure Databricks kümeniz yerel olarak yüklü değilse yükleme gereksinimlerinde listelenen doğru Python sürümünü yükleyin.

  2. Gerekirse Python sanal ortamınızı, kümenizle eşleşecek şekilde doğru Python sürümünü kullanacak şekilde yükseltin. Yönergeler için sanal ortam sağlayıcınıza ait belgelere bakın.

  3. Sanal ortamınız etkinleştirildiğinde PySpark'ı sanal ortamınızdan kaldırın:

    pip3 uninstall pyspark
    
  4. Sanal ortamınız hala etkin durumdayken Databricks Runtime 12.2 LTS için Databricks Connect'i kaldırın ve aşağıdaki adımları izleyin:

    pip3 uninstall databricks-connect
    
  5. Sanal ortamınız hala etkinken Databricks Runtime 13.3 LTS ve üzeri için Databricks Connect'i yükleyin:

    pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
    

    Not

    Databricks, en son paketin yüklendiğinden emin olmak için databricks-connect==X.Y.* yerine databricks-connect=X.Y belirtmek amacıyla "nokta-yıldız" gösterimini eklemenizi önerir. Bu bir gereksinim olmasa da, bu küme için desteklenen en son özellikleri kullanabilmenize yardımcı olur.

  6. Python kodunuzu spark değişkenini başlatacak şekilde güncelleştirin (PySpark'taki DatabricksSession benzer şekilde SparkSession sınıfının bir örneğini temsil eder). Databricks Connect için işlem yapılandırmasına bakın.

  7. RDD API'lerinizi DataFrame API'lerini kullanacak şekilde geçirin ve SparkContext için alternatifleri kullanın.

Hadoop yapılandırmalarını ayarlama

İstemcide, SQL ve DataFrame işlemleri için geçerli olan spark.conf.set API'sini kullanarak Hadoop yapılandırmalarını ayarlayabilirsiniz. sparkContext üzerinde ayarlanan Hadoop yapılandırmaları, küme yapılandırmasında veya not defteri kullanılarak yapılmalıdır. Bunun nedeni, sparkContext'de ayarlanan yapılandırmaların kullanıcı oturumlarına bağlı olmaması, ancak kümenin tamamına uygulanmasıdır.