Python için Databricks Connect'e geçiş
Bu makalede, Databricks Runtime 12.2 LTS için Databricks Connect'ten python için Databricks Runtime 13.3 LTS ve üzeri için Databricks Connect'e nasıl geçiş yapılır açıklanır. Databricks Connect popüler IDE'leri, not defteri sunucularını ve özel uygulamaları Azure Databricks kümelerine bağlamanızı sağlar. Bkz. Databricks Connect nedir?. Bu makalenin Scala sürümü için bkz . Scala için Databricks Connect'e geçiş.
Not
Databricks Connect'i kullanmaya başlamadan önce Databricks Connect istemcisini ayarlamanız gerekir.
Mevcut Python kod projenizi veya kodlama ortamınızı Databricks Runtime 12.2 LTS için Databricks Connect'ten Databricks Runtime 13.3 LTS ve üzeri için Databricks Connect'e geçirmek için bu yönergeleri izleyin.
Azure Databricks kümeniz yerel olarak yüklü değilse yükleme gereksinimlerinde listelenen doğru Python sürümünü yükleyin.
Gerekirse Python sanal ortamınızı, kümenizle eşleşecek şekilde doğru Python sürümünü kullanacak şekilde yükseltin. Yönergeler için sanal ortam sağlayıcınıza ait belgelere bakın.
Sanal ortamınız etkinleştirildiğinde PySpark'ı sanal ortamınızdan kaldırın:
pip3 uninstall pyspark
Sanal ortamınız hala etkin durumdayken Databricks Runtime 12.2 LTS için Databricks Connect'i kaldırın ve aşağıdaki adımları izleyin:
pip3 uninstall databricks-connect
Sanal ortamınız hala etkinken Databricks Runtime 13.3 LTS ve üzeri için Databricks Connect'i yükleyin:
pip3 install --upgrade "databricks-connect==14.0.*" # Or X.Y.* to match your cluster version.
Not
Databricks, en son paketin yüklendiğinden emin olmak için yerine
databricks-connect=X.Y
belirtmekdatabricks-connect==X.Y.*
üzere "nokta-yıldız işareti" gösterimini eklemenizi önerir. Bu bir gereksinim olmasa da, bu küme için desteklenen en son özellikleri kullanabilmenize yardımcı olur.Değişkenini başlatmak için Python kodunuzu güncelleştirin
spark
(PySpark'takineSparkSession
benzer şekilde sınıfının bir örneğiniDatabricksSession
temsil eder). Kod örnekleri için bkz . Python için Databricks Connect'i yükleme.RdD API'lerinizi DataFrame API'lerini kullanmak üzere geçirin ve alternatifleri kullanmak üzere geçirin
SparkContext
.
Hadoop yapılandırmalarını ayarlama
İstemcide, SQL ve DataFrame işlemleri için geçerli olan API'yi kullanarak spark.conf.set
Hadoop yapılandırmalarını ayarlayabilirsiniz. üzerinde sparkContext
ayarlanan Hadoop yapılandırmaları, küme yapılandırmasında veya bir not defteri kullanılarak ayarlanmalıdır. Bunun nedeni, üzerinde sparkContext
ayarlanan yapılandırmaların kullanıcı oturumlarına bağlı olmaması ama kümenin tamamına uygulanmasıdır.