Aracılığıyla paylaş


Python için Databricks Connect'e geçiş

Bu makalede, Databricks Runtime 12.2 LTS için Databricks Connect'ten python için Databricks Runtime 13.3 LTS ve üzeri için Databricks Connect'e nasıl geçiş yapılır açıklanır. Databricks Connect popüler IDE'leri, not defteri sunucularını ve özel uygulamaları Azure Databricks kümelerine bağlamanızı sağlar. Bkz. Databricks Connect nedir?. Bu makalenin Scala sürümü için bkz . Scala için Databricks Connect'e geçiş.

Not

Databricks Connect'i kullanmaya başlamadan önce Databricks Connect istemcisini ayarlamanız gerekir.

Mevcut Python kod projenizi veya kodlama ortamınızı Databricks Runtime 12.2 LTS için Databricks Connect'ten Databricks Runtime 13.3 LTS ve üzeri için Databricks Connect'e geçirmek için bu yönergeleri izleyin.

  1. Azure Databricks kümeniz yerel olarak yüklü değilse yükleme gereksinimlerinde listelenen doğru Python sürümünü yükleyin.

  2. Gerekirse Python sanal ortamınızı, kümenizle eşleşecek şekilde doğru Python sürümünü kullanacak şekilde yükseltin. Yönergeler için sanal ortam sağlayıcınıza ait belgelere bakın.

  3. Sanal ortamınız etkinleştirildiğinde PySpark'ı sanal ortamınızdan kaldırın:

    pip3 uninstall pyspark
    
  4. Sanal ortamınız hala etkin durumdayken Databricks Runtime 12.2 LTS için Databricks Connect'i kaldırın ve aşağıdaki adımları izleyin:

    pip3 uninstall databricks-connect
    
  5. Sanal ortamınız hala etkinken Databricks Runtime 13.3 LTS ve üzeri için Databricks Connect'i yükleyin:

    pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
    

    Not

    Databricks, en son paketin yüklendiğinden emin olmak için yerine databricks-connect=X.Ybelirtmek databricks-connect==X.Y.* üzere "nokta-yıldız işareti" gösterimini eklemenizi önerir. Bu bir gereksinim olmasa da, bu küme için desteklenen en son özellikleri kullanabilmenize yardımcı olur.

  6. Değişkenini başlatmak için Python kodunuzu güncelleştirin spark (PySpark'takine SparkSession benzer şekilde sınıfının bir örneğini DatabricksSession temsil eder). Kod örnekleri için bkz . Python için Databricks Connect'i yükleme.

  7. RdD API'lerinizi DataFrame API'lerini kullanmak üzere geçirin ve alternatifleri kullanmak üzere geçirin SparkContext .

Hadoop yapılandırmalarını ayarlama

İstemcide, SQL ve DataFrame işlemleri için geçerli olan API'yi kullanarak spark.conf.set Hadoop yapılandırmalarını ayarlayabilirsiniz. üzerinde sparkContext ayarlanan Hadoop yapılandırmaları, küme yapılandırmasında veya bir not defteri kullanılarak ayarlanmalıdır. Bunun nedeni, üzerinde sparkContext ayarlanan yapılandırmaların kullanıcı oturumlarına bağlı olmaması ama kümenin tamamına uygulanmasıdır.