Aracılığıyla paylaş


Scala geliştiricileri için Azure Databricks

Bu makale, Scala dilini kullanarak Azure Databricks'te not defterleri ve işler geliştirmeye yönelik bir kılavuz sağlar. İlk bölümde, yaygın iş akışları ve görevler için öğreticilere bağlantılar sağlanır. İkinci bölümde API'lere, kitaplıklara ve anahtar araçlarına bağlantılar sağlanır.

Kullanmaya başlamak için temel bir iş akışı:

  • Etkileşimli bir Databricks not defteri kullanarak kodu içeri aktarın ve çalıştırın: Dosyalardan veya Git depolarından kendi kodunuzu içeri aktarın veya aşağıda listelenen bir öğreticiyi deneyin.
  • Kodunuzu bir kümede çalıştırma: Kendi kümenizi oluşturun veya paylaşılan kümeyi kullanma izinlerinizin olduğundan emin olun. Not defterinizi kümeye ekleyin ve not defterini çalıştırın.

Bunun ötesinde, daha belirli konulara dallayabilirsiniz:

Öğreticiler

Aşağıdaki öğreticiler, yaygın iş akışları hakkında bilgi edinmek için örnek kod ve not defterleri sağlar. Not defteri örneklerini çalışma alanınıza aktarma yönergeleri için bkz. Not defterini içeri aktarma.

Başvuru

Aşağıdaki alt bölümler Scala ile Azure Databricks'te geliştirmeye başlamanıza yardımcı olacak temel özellikleri ve ipuçlarını listelemektedir.

Scala API’si

Bu bağlantılar Apache Spark Scala API'sine giriş ve başvuru sağlar.

Not defterleri ve Databricks Git klasörleriyle kodu yönetme

Databricks not defterleri Scala'ya destek sağlar. Bu not defterleri Jupyter'ınkine benzer işlevler sağlar, ancak büyük veri kullanan yerleşik görselleştirmeler, hata ayıklama ve performans izleme için Apache Spark tümleştirmeleri ve makine öğrenmesi denemelerini izlemeye yönelik MLflow tümleştirmeleri gibi eklemeler sağlar. Not defterini içeri aktararak başlayın. Bir kümeye erişiminiz olduğunda, kümeye bir not defteri ekleyebilir ve not defterini çalıştırabilirsiniz.

İpucu

Not defterinizin durumunu tamamen sıfırlamak için çekirdeği yeniden başlatmak yararlı olabilir. Jupyter kullanıcıları için, Jupyter'deki "çekirdeği yeniden başlat" seçeneği Databricks'te bir not defterini ayırmaya ve yeniden eklemeye karşılık gelir. Not defterindeki çekirdeği yeniden başlatmak için, not defteri araç çubuğunda işlem seçiciye tıklayın ve yan menüyü görüntülemek için listedeki ekli kümenin veya SQL ambarı'nın üzerine gelin. Ayır ve yeniden ekle'yi seçin. Bu işlem, not defterini kümenizden ayırır ve işlemi yeniden başlatan yeniden ekler.

Databricks Git klasörleri , kullanıcıların not defterlerini ve diğer dosyaları Git depolarıyla eşitlemesine olanak tanır. Databricks Git klasörleri, kod sürümü oluşturma ve işbirliği konusunda yardımcı olur ve kodun tam deposunu Azure Databricks'e aktarmayı, geçmiş not defteri sürümlerini görüntülemeyi ve IDE geliştirmeyle tümleştirmeyi basitleştirebilir. Uzak git deposunu kopyalayarak başlayın. Daha sonra depo kopyasıyla not defterlerini açabilir veya oluşturabilir, not defterini bir kümeye ekleyebilir ve not defterini çalıştırabilirsiniz.

Kümeler ve kitaplıklar

Azure Databricks İşlem , tek düğüm kümelerinden büyük kümelere kadar her boyuttaki kümeler için işlem yönetimi sağlar. Küme donanımlarını ve kitaplıklarını gereksinimlerinize göre özelleştirebilirsiniz. Veri bilimciler genellikle bir küme oluşturarak veya mevcut paylaşılan kümeyi kullanarak çalışmaya başlar. Bir kümeye erişiminiz olduğunda, kümeye bir not defteri ekleyebilir veya kümede bir iş çalıştırabilirsiniz.

Azure Databricks kümeleri, Apache Spark, Delta Lake ve daha fazlası dahil olmak üzere kullanıma açık birçok popüler kitaplık sağlayan bir Databricks Runtime kullanır. Ayrıca, not defterleri ve işlerle kullanmak üzere ek üçüncü taraf veya özel kitaplıklar da yükleyebilirsiniz.

Görselleştirmeler

Azure Databricks Scala not defterleri birçok görselleştirme türü için yerleşik desteğe sahiptir. Eski görselleştirmeleri de kullanabilirsiniz:

Birlikte çalışabilirlik

Bu bölümde Scala ile SQL arasında birlikte çalışabilirliği destekleyen özellikler açıklanmaktadır.

İşler

Scala iş yüklerini Azure Databricks'te zamanlanmış veya tetiklenen işler olarak otomatikleştirebilirsiniz. İşler not defterlerini ve JAR'leri çalıştırabilir.

  • Kullanıcı arabirimi aracılığıyla iş oluşturma hakkında ayrıntılı bilgi için bkz . İş oluşturma.
  • Databricks SDK'ları işleri program aracılığıyla oluşturmanıza, düzenlemenize ve silmenize olanak tanır.
  • Databricks CLI, işleri otomatikleştirmek için kullanışlı bir komut satırı arabirimi sağlar.

IDE'ler, geliştirici araçları ve SDK'lar

Azure Databricks not defterleri içinde Scala kodu geliştirmeye ek olarak, IntelliJ IDEA gibi tümleşik geliştirme ortamlarını (IDE' ler) kullanarak da harici olarak geliştirme yapabilirsiniz. Dış geliştirme ortamları ile Azure Databricks arasındaki çalışmayı eşitlemek için çeşitli seçenekler vardır:

  • Kod: Git kullanarak kodu eşitleyebilirsiniz. Bkz . Databricks Git klasörleriyle Git tümleştirmesi.
  • Kitaplıklar ve işler: Dış kitaplıklar oluşturabilir ve bunları Azure Databricks'e yükleyebilirsiniz. Bu kitaplıklar Azure Databricks not defterleri içinde içeri aktarılabilir veya iş oluşturmak için kullanılabilir. Bkz. Kitaplıklar ve Azure Databricks İşleri oluşturma ve çalıştırma.
  • Uzaktan makine yürütme: Etkileşimli geliştirme ve test için yerel IDE'nizden kod çalıştırabilirsiniz. IDE, Azure Databricks kümelerinde büyük hesaplamalar yürütmek için Azure Databricks ile iletişim kurabilir. Örneğin, Databricks Connect ile IntelliJ IDEA kullanabilirsiniz.

Databricks, dış araçlarla otomasyon ve tümleştirmeyi destekleyen bir dizi SDK sağlar. Databricks SDK'larını kullanarak kümeler ve kitaplıklar, kod ve diğer çalışma alanı nesneleri, iş yükleri ve işler gibi kaynakları yönetebilirsiniz. Bkz. Databricks SDK'ları.

IDE'ler, geliştirici araçları ve SDK'lar hakkında daha fazla bilgi için bkz. Geliştirici araçları ve yönergeler.

Ek kaynaklar

  • Databricks Academy birçok konuda kendi hızınızda ilerleyebileceğiniz ve eğitmen liderliğinde kurslar sunmaktadır.