Apache Spark kullanmaya hazırlanma

Tamamlandı

Apache Spark, bir kümedeki birden çok işleme düğümünde çalışmayı koordine ederek büyük ölçekli veri analizine olanak tanıyan bir dağıtılmış veri işleme çerçevesidir. Daha basit ifade etmek gerekirse Spark, işi birden çok bilgisayara dağıtarak büyük hacimli verileri hızlı bir şekilde işlemek için "bölme ve fethetme" yaklaşımını kullanır. Görevleri dağıtma ve sonuçları harmanlama işlemi Spark tarafından sizin için işlenir. Spark kümesindeki işleme dağıtımını yönetmek için SparkContext adlı bir küme yönetim nesnesi kullanan bir sürücü programı başlatan bir kod biçiminde bir veri işleme işi gönderirsiniz. Çoğu durumda, bu ayrıntılar soyutlanır. Yalnızca ihtiyacınız olan veri işlemlerini gerçekleştirmek için gereken kodu yazmanız yeterlidir.

Spark, Java, Scala (Java tabanlı betik dili), Spark R, Spark SQL ve PySpark (Python'un Spark'a özgü bir çeşidi) gibi çok çeşitli dillerde yazılmış kod çalıştırabilir. Veri mühendisliği ve analiz iş yüklerinin çoğu PySpark ve Spark SQL birleşimi kullanılarak gerçekleştirilir.

Spark ayarları

Microsoft Fabric'te her çalışma alanına bir Spark kümesi atanır. Yönetici, çalışma alanı ayarlarının Veri Madenciliği/Bilim bölümünde Spark kümesi ayarlarını yönetebilir.

Screenshot of the Spark settings page in Microsoft Fabric.

Belirli yapılandırma ayarları şunlardır:

  • Düğüm Ailesi: Spark kümesi düğümleri için kullanılan sanal makinelerin türü. Çoğu durumda, bellek için iyileştirilmiş düğümler en iyi performansı sağlar.
  • Çalışma zamanı sürümü: Kümede çalıştırılacak Spark sürümü (ve bağımlı alt bileşenler).
  • Spark Özellikleri: Kümenizde etkinleştirmek veya geçersiz kılmak istediğiniz Spark'a özgü ayarlar. Özelliklerin listesini Apache Spark belgelerinde görebilirsiniz.

Not

Çoğu senaryoda varsayılan ayarlar, Microsoft Fabric'te Spark için en uygun yapılandırmayı sağlar.

Kitaplıklar

Spark açık kaynak ekosistemi, yaygın (ve bazen çok özel) görevler için çok çeşitli kod kitaplıkları içerir. PySpark kullanılarak büyük miktarda Spark işleme gerçekleştirildiğinden, çok çeşitli Python kitaplıkları, hangi görevi gerçekleştirmeniz gerekiyorsa, büyük olasılıkla size yardımcı olacak bir kitaplık olmasını sağlar.

Varsayılan olarak, Microsoft Fabric'teki Spark kümeleri en yaygın kullanılan kitaplıkların çoğunu içerir. Kod öğeleri için ek varsayılan kitaplıklar ayarlamak veya kitaplık belirtimlerini kalıcı hale getirmek için, bir ortam oluşturmak ve çalışma alanı için varsayılan ortamı ayarlamak için çalışma alanı yöneticisi izinlerine ihtiyacınız vardır.

İpucu

Kitaplık yönetimi hakkında daha fazla bilgi için Microsoft Fabric belgelerindeki Microsoft Fabric'te Apache Spark kitaplıklarını yönetme bölümüne bakın.