Aracılığıyla paylaş


Microsoft Fabric'te Apache Spark işlemi nedir?

Şunlar için geçerlidir:✅ Microsoft Fabric'te Veri Madenciliği ve Veri Bilimi

Microsoft Fabric Veri Madenciliği ve Veri Bilimi deneyimleri, tam olarak yönetilen bir Apache Spark işlem platformunda çalışır. Bu platform benzersiz hız ve verimlilik sunmak için tasarlanmıştır. Başlangıç havuzlarıyla, el ile kuruluma gerek olmadan genellikle 5-10 saniye içinde hızlı Apache Spark oturumu başlatmayı bekleyebilirsiniz. Ayrıca Apache Spark havuzlarını özel veri mühendisliği ve veri bilimi gereksinimlerinize göre özelleştirme esnekliğine de sahiptirsiniz. Platform, iyileştirilmiş ve uyarlanmış bir analiz deneyimi sağlar.

Başlangıç havuzları ve özel Spark havuzları içeren bir Spark işlem platformunun görüntüsü.

Başlangıç havuzları

Başlangıç havuzları, Saniyeler içinde Microsoft Fabric platformunda Spark'ı kullanmanın hızlı ve kolay bir yoludur. Spark'ın düğümleri sizin için ayarlamasını beklemek yerine Spark oturumlarını hemen kullanabilirsiniz. Bu da verilerle daha fazlasını yapmanıza ve daha hızlı içgörüler elde etmenize yardımcı olur.

Başlangıç havuzu yapılandırmasını gösteren bir tablonun görüntüsü.

Başlangıç havuzlarında her zaman açık ve isteklerinize hazır Apache Spark kümeleri vardır. Spark iş gereksinimlerinize göre dinamik olarak ölçeklendirilen orta düzey düğümler kullanır.

Başlangıç havuzlarının üst düzey tasarımını gösteren diyagram.

Başlangıç havuzları ayrıca, oturum başlangıç zamanını yavaşlatmadan kitaplıkları hızlı bir şekilde yüklemenize olanak sağlayan varsayılan ayarlara sahiptir. Ancak, çalışma alanınızdan veya kapasite ayarlarınızdan fazladan özel Apache Spark özellikleri veya kitaplıkları kullanmak istiyorsanız Spark'ın düğümleri sizin için alması daha uzun sürer. Faturalama ve kapasite tüketimi söz konusu olduğunda, not defterinizi veya Apache Spark iş tanımınızı yürütmeye başladığınızda kapasite tüketimi için ücretlendirilirsiniz. Kümeler havuzda boşta olduğu süre boyunca sizden ücret alınmaz.

Başlangıç havuzlarının faturalamasında üst düzey aşamaları gösteren diyagram.

Örneğin, bir başlangıç havuzuna not defteri işi gönderirseniz, yalnızca not defteri oturumunun etkin olduğu süre boyunca faturalandırılırsınız. Faturalanan süre boşta kalma süresini veya Spark bağlamı ile oturumu kişiselleştirmek için geçen süreyi içermez.

Spark havuzları

Spark havuzu, Spark'a veri çözümleme görevleriniz için ne tür kaynaklara ihtiyacınız olduğunu söylemenin bir yoludur. Spark havuzunuza bir ad verebilir ve düğümlerin (işi yapacak makineler) kaç ve ne kadar büyük olduğunu seçebilirsiniz. Spark'a, sahip olduğunuz çalışma miktarına bağlı olarak düğüm sayısını nasıl ayarlayabileceğini de söyleyebilirsiniz. Spark havuzu oluşturmak ücretsizdir; yalnızca havuzda bir Spark işi çalıştırdığınızda ödeme yapın ve ardından Spark düğümleri sizin için ayarlar.

Oturumunuzun süresi dolduktan sonra Spark havuzunuzu 2 dakika boyunca kullanmazsanız Spark havuzunuz serbest bırakılır. Bu varsayılan oturum süre sonu süresi 20 dakika olarak ayarlanır ve isterseniz bunu değiştirebilirsiniz. Çalışma alanı yöneticisiyseniz, çalışma alanınız için özel Spark havuzları oluşturabilir ve bunları diğer kullanıcılar için varsayılan seçenek haline getirebilirsiniz. Bu şekilde, her not defteri veya Spark işi çalıştırdığınızda zamandan tasarruf edebilir ve yeni bir Spark havuzu ayarlamaktan kaçınabilirsiniz. Spark'ın düğümleri Azure'dan alması gerektiğinden özel Spark havuzlarının başlatılması yaklaşık üç dakika sürer.

En az düğüm sayısını bir olarak ayarlayarak tek düğümlü Spark havuzları bile oluşturabilirsiniz; böylece sürücü ve yürütücü, geri yüklenebilen HA ile birlikte gelen ve küçük iş yükleri için uygun olan tek bir düğümde çalışır.

Özel Spark havuzunuzda sahip olabileceğiniz düğümlerin boyutu ve sayısı Microsoft Fabric kapasitenize bağlıdır. Kapasite, Azure'da ne kadar bilgi işlem gücü kullanabileceğinizi gösteren bir ölçüdür. Bunu düşünmenin bir yolu, iki Apache Spark sanal çekirdeğinin (Spark için işlem gücü birimi) bir kapasite birimine eşit olmasıdır. Örneğin, Doku kapasitesi SKU F64'ün 64 kapasite birimi vardır ve bu da 128 Spark sanal çekirdeğine eşdeğerdir. Toplam Spark sanal çekirdek sayısı 128'i aşmadığı sürece, özel Spark havuzunuz için farklı boyutlarda düğümler oluşturmak için bu Spark sanal çekirdeklerini kullanabilirsiniz.

Spark havuzları başlangıç havuzları gibi faturalandırılır; bir not defterini veya Spark iş tanımını çalıştırmak için oluşturulmuş etkin bir Spark oturumunun olmadığı sürece, oluşturduğunuz özel Spark havuzları için ödeme yapmazsınız. Yalnızca işinizin çalıştığı süre boyunca faturalandırılırsınız. İş tamamlandıktan sonra küme oluşturma ve serbest bırakma gibi aşamalar için faturalandırmazsınız.

Özel havuzların faturalamasında üst düzey aşamaları gösteren diyagram.

Örneğin, bir not defteri işini özel bir Spark havuzuna gönderirseniz yalnızca oturumun etkin olduğu süre boyunca ücretlendirilirsiniz. Spark oturumu durdurulduktan veya süresi dolduktan sonra bu not defteri oturumu için faturalama durdurulur. Buluttan küme örneklerini almak için geçen süre veya Spark bağlamını başlatmak için geçen süre için sizden ücret alınmaz.

Önceki örne göre F64 için olası özel havuz yapılandırmaları:

Doku kapasitesi SKU'su Kapasite birimleri Spark Sanal Çekirdekleri Düğüm boyutu En fazla düğüm sayısı
F64 64 384 Küçük 96
F64 64 384 Orta 48
F64 64 384 Büyük 24
F64 64 384 X-Large 12
F64 64 384 XX-Large 6

Not

Özel havuzlar oluşturmak için çalışma alanı için yönetici izinlerine sahip olmanız gerekir. Ayrıca Microsoft Fabric kapasite yöneticisinin çalışma alanı yöneticilerinin özel Spark havuzlarını boyutlandırmasına izin vermek için izin vermesi gerekir. Daha fazla bilgi edinmek için bkz . Doku'da özel Spark havuzlarını kullanmaya başlama

Düğümler

Apache Spark havuz örneği bir baş düğümden ve çalışan düğümlerinden oluşur ve Spark örneğinde en az bir düğüm başlatabilir. Baş düğüm Livy, Yarn Resource Manager, Zookeeper ve Apache Spark sürücüsü gibi ek yönetim hizmetleri çalıştırır. Tüm düğümler Node Aracısı ve Yarn Node Manager gibi hizmetleri çalıştırır. Tüm çalışan düğümleri Apache Spark Yürütücüsü hizmetini çalıştırır.

Düğüm boyutları

Spark havuzu, küçük bir işlem düğümünden (4 sanal çekirdek ve 28 GB bellekle) çift fazla büyük işlem düğümüne (düğüm başına 64 sanal çekirdek ve 400 GB bellek ile) değişen düğüm boyutlarıyla tanımlanabilir. Etkin oturumun yeniden başlatılması gerekse de düğüm boyutları havuz oluşturulduktan sonra değiştirilebilir.

Size Sanal Çekirdek Bellek
Küçük 4 28 GB
Orta 8 56 GB
Büyük 16 112 GB
X-Large 32 224 GB
XX-Large 64 400 GB

Otomatik Ölçeklendirme

Apache Spark havuzları için otomatik ölçeklendirme, etkinlik miktarına göre işlem kaynaklarının ölçeğini otomatik olarak artırmaya ve azaltmaya olanak tanır. Otomatik ölçeklendirme özelliğini etkinleştirdiğinizde, ölçeklendirilecek en az ve en fazla düğüm sayısını ayarlarsınız. Otomatik ölçeklendirme özelliğini devre dışı bırakdığınızda, ayarlanan düğüm sayısı sabit kalır. Havuz oluşturulduktan sonra bu ayarı değiştirebilirsiniz, ancak örneği yeniden başlatmanız gerekebilir.

Not

Varsayılan olarak spark.yarn.executor.decommission.enabled true olarak ayarlanır ve işlem verimliliğini iyileştirmek için az kullanılan düğümlerin otomatik olarak kapatılmasını sağlar. Daha az agresif azaltma tercih edilirse, bu yapılandırma false olarak ayarlanabilir

Dinamik ayırma

Dinamik ayırma, görevler geçerli yürütücülerin taşıyabileceği yükü aşarsa Apache Spark uygulamasının daha fazla yürütücü istemesine olanak tanır. Ayrıca işler tamamlandığında ve Spark uygulaması boşta durumuna geçiyorsa yürütücüleri serbest bırakır. Spark iş yürütme işleminin farklı aşamalarında büyük ölçüde farklı olduklarından, kurumsal kullanıcılar genellikle yürütücü yapılandırmalarını ayarlamayı zor bulur. Bu yapılandırmalar, zaman zaman değişen işlenen veri hacmine de bağlıdır. Yürütücülerin dinamik ayırmasını havuz yapılandırmasının bir parçası olarak etkinleştirebilirsiniz. Bu seçenek, Spark havuzundaki kullanılabilir düğümleri temel alarak yürütücülerin Spark uygulamasına otomatik olarak ayrılmasını sağlar.

Gönderilen her Spark uygulaması için dinamik ayırma seçeneğini etkinleştirdiğinizde, sistem en düşük düğümleri temel alarak iş gönderme adımı sırasında yürütücüleri ayırır. Başarılı otomatik ölçeklendirme senaryolarını desteklemek için en fazla düğüm sayısını belirtirsiniz.