Fabric Çalışma Zamanı 2.0 (Önizleme)

Önemli

Bu özellik önizleme aşamasındadır.

Fabric Runtime, Microsoft Fabric ekosisteminde sorunsuz tümleştirme sağlayarak Apache Spark tarafından desteklenen veri mühendisliği ve veri bilimi projeleri için sağlam bir ortam sunar.

Bu makalede, Microsoft Fabric'teki büyük veri hesaplamaları için tasarlanmış en son çalışma zamanı olan Fabric Runtime 2.0 Genel Önizlemesi tanıtıldı. Bu sürümü ölçeklenebilir analiz ve gelişmiş iş yükleri için önemli bir adım haline getiren temel özellikleri ve bileşenleri vurgular.

Fabric Runtime 2.0, veri işleme özelliklerinizi geliştirmek için tasarlanmış aşağıdaki bileşenleri ve yükseltmeleri içerir:

  • Apache Spark 4.0
  • İşletim Sistemi: Azure Linux 3.0 (Mariner 3.0)
  • Java: 21
  • Scala: 2.13
  • Python: 3.12
  • Delta Gölü: 4.0
  • R: 4.5.2

İpucu

Fabric Runtime 2.0, daha fazla maliyet olmadan performansı önemli ölçüde geliştirebilen Yerel Yürütme Altyapısı desteği içerir. Tüm işlerin ve not defterlerinin gelişmiş performans özelliklerini otomatik olarak devralması için yerel yürütme altyapısını ortam düzeyinde etkinleştirebilirsiniz.

Çalışma Zamanı 2.0'i etkinleştirme

Çalışma zamanı 2.0'i çalışma alanı düzeyinde veya ortam öğesi düzeyinde etkinleştirebilirsiniz. Çalışma alanınızdaki tüm Spark iş yükleri için varsayılan olarak Çalışma Zamanı 2.0'ı uygulamak için çalışma alanı ayarını kullanın. Alternatif olarak, çalışma alanı varsayılanını geçersiz kılan belirli not defterleriyle veya Spark iş tanımlarıyla kullanmak üzere Çalışma Zamanı 2.0 ile bir ortam öğesi oluşturun.

Çalışma Alanı ayarlarında Çalışma Zamanı 2.0'ı etkinleştirme

Çalışma Zamanı 2.0'ı tüm çalışma alanınız için varsayılan olarak ayarlamak için:

  1. Fabric çalışma alanınızdaki Çalışma Alanı ayarları sayfasına gidin.

    Çalışma alanı ayarları için çalışma zamanı sürümünün seçileceği yeri gösteren ekran görüntüsü.

  2. Veri Mühendisliği/Bilim sekmesini ve ardından Spark ayarları'nı seçin.

  3. Ortam sekmesini seçin.

  4. Çalışma zamanı sürümü açılan listesinden 2.0 Genel Önizleme (Spark 4.0, Delta 4.0) öğesini seçin ve değişikliklerinizi kaydedin.

  5. Çalışma zamanı 2.0, çalışma alanınız için varsayılan çalışma zamanı olarak ayarlanır.

Ortam öğesinde Çalışma Zamanı 2.0'i etkinleştirme

Çalışma Zamanı 2.0'ı belirli not defterleriyle veya Spark iş tanımlarıyla kullanmak için:

  1. Yeni bir Ortam öğesi oluşturun veya var olan bir öğeyi açın.

  2. Çalışma Zamanı açılır menüsünden 2.0 Genel Önizleme (Spark 4.0, Delta 4.0)Save seçin ve Publish değişikliklerinizi yapın.

    Ortam öğesi için çalışma zamanı sürümünün seçileceği yeri gösteren ekran görüntüsü.

  3. Ardından, bu Ortam öğesini Notebook veya Spark Job Definition ile kullanabilirsiniz.

Artık Fabric Runtime 2.0'da (Spark 4.0 ve Delta Lake 4.0) sunulan en yeni iyileştirmeler ve işlevlerle denemeler yapmaya başlayabilirsiniz.

İpucu

Genel önizleme sırasında Çalışma Zamanı 2.0 için ilk Spark oturumu başlatma işlemi birkaç dakika sürebilir. Soğuk başlangıç gecikmelerini azaltmak için Spark havuzlarını önceden ısındırmak amacıyla Özel Canlı Havuzlar'ı (önizleme) kullanın. Alternatif olarak, kaynakları önceden ayırmak için Kaynak Profillerini yapılandırabilirsiniz.

Uyarı

Genel Amaçlı v2 (GPv2) Azure Depolama hesapları için WASB protokolü kullanım dışıdır. GPv2 depolama hesaplarından okuma ve GPv2 depolama hesaplarına yazma yerine en son ABFS protokollerini kullanmanız gerekir.

Genel önizleme

Fabric Runtime 2.0 genel önizleme aşaması, hem Spark 4.0 hem de Delta Lake 4.0'dan yeni özelliklere ve API'lere erişmenizi sağlar. Önizleme, yeni Java, Scala ve Python sürümleri gibi gelişmiş ve geliştirilmiş değişiklikler için sorunsuz bir hazır olma ve geçiş sağlamanın yanı sıra en son Spark ve Delta tabanlı geliştirmeleri hemen kullanmanıza olanak tanır.

İpucu

Güncel bilgiler, değişikliklerin ayrıntılı bir listesi ve Fabric çalışma zamanlarına yönelik belirli sürüm notları için Spark Çalışma Zamanları Yayınları ve Güncellemeleri'ne göz atın ve abone olun.

Önemli noktalar

Performans ve yürütme altyapısı geliştirmeleri

Fabric Runtime 2.0, açık kaynak Spark üzerinde önemli performans geliştirmeleri sağlayan Yerel Yürütme Altyapısı'nı içerir. Motor işleyici, kod değişikliğine gerek kalmadan lakehouse altyapısındaki Spark sorgularını hızlandırmak için vektörleştirilmiş işleme kullanır.

Çalışma Zamanı 2.0'daki temel performans özellikleri:

  • Altı kata kadar daha hızlı: Karşılaştırmalar, TPC-DS iş yüklerinde açık kaynak Spark ile karşılaştırıldığında altı kata kadar daha hızlı performans gösterir.
  • Vektörleştirilmiş CSV ayrıştırma: Yerel yürütme altyapısı, CSV alımını ve sorgu iş yüklerini hızlandıran vektörleştirilmiş bir CSV ayrıştırıcısı içerir. Gelecekteki güncelleştirmeler için vektörleştirilmiş JSON ayrıştırma ve Spark Yapılandırılmış Akış desteği planlanıyor.

Yerel yürütme altyapısını etkinleştirmek için bkz. Doku Veri Mühendisliği için yerel yürütme altyapısı.

Apache Spark 4.0

Apache Spark 4.0, 4.x serisinin ilk sürümü olarak önemli bir kilometre taşını işaret ediyor ve canlı açık kaynak topluluğunun kolektif çalışmasını somutlaştırıyor.

Bu sürümde Spark SQL, DEĞIŞKEN veri türü desteği, SQL kullanıcı tanımlı işlevler, oturum değişkenleri, kanal söz dizimi ve dize harmanlaması gibi SQL iş yükleri için ifade ve çok yönlülüğü artırmak üzere tasarlanmış güçlü yeni özelliklerle önemli ölçüde zenginleştirilmiştir. PySpark'in hem işlevsel genişliğini hem de genel geliştirici deneyimini iyileştirmeye yönelik sürekli bağlılığı, yerleşik bir çizim API'si, yeni bir Python Veri Kaynağı API'si, Python UDTF'ler için destek ve PySpark UDF'leri için birleşik profil oluşturmanın yanı sıra birçok başka geliştirme getiriyor. Yapılandırılmış Akış, özellikle daha esnek durum yönetimi için Rastgele Durum API'sinin v2 ve daha kolay hata ayıklama için Durum Veri Kaynağı'nın kullanıma sunulması gibi daha fazla denetim ve hata ayıklama kolaylığı sağlayan temel eklemelerle gelişir.

Tam listeyi ve ayrıntılı değişiklikleri burada kontrol edebilirsiniz: https://spark.apache.org/releases/spark-release-4-0-0.html.

Uyarı

Spark 4.0'da SparkR kullanım dışıdır ve gelecekteki bir sürümde kaldırılabilir.

Delta Lake 4.0

Delta Lake 4.0, Delta Lake'i biçimler arasında birlikte çalışabilir, daha kolay çalışılabilir ve daha yüksek performanslı hale getirmek için kolektif bir taahhüdü işaret ediyor. Delta 4.0, açık data lakehouse'ların geleceği için güçlü yeni özellikler, performans iyileştirmeleri ve temel iyileştirmelerle dolu bir kilometre taşı sürümüdür.

Delta Lake 3.3 ve 4.0 ile sunulan tam listeyi ve ayrıntılı değişiklikleri buradan de kontrol edebilirsiniz: https://github.com/delta-io/delta/releases/tag/v3.3.0. https://github.com/delta-io/delta/releases/tag/v4.0.0.

Veri düzeni ve iyileştirme

Çalışma zamanı 2.0, Delta tabloları için veri düzeni ve iyileştirme özelliklerini destekler:

  • Z sıralama: Filtrelenmiş sorgular için sorgu performansını geliştirmek için Delta tablo dosyalarındaki verileri belirtilen sütunlara göre düzenleyin.
  • Sıvı Kümelemesi: El ile bakım yapmadan veri düzenini otomatik olarak en iyi duruma getiren esnek bir kümeleme yaklaşımı.
  • Paralel Delta anlık görüntüsü yükleme: Yerel yürütme altyapısı Delta tablosu anlık görüntülerini paralel olarak yükleyerek büyük tablolar için sorgu başlatma süresini kısaltır.

Önemli

Delta Lake 4.0'a özgü özellikler deneyseldir ve yalnızca Not Defterleri ve Spark İş Tanımları gibi Spark deneyimlerinde çalışır. Birden çok Microsoft Fabric iş yükünde aynı Delta Lake tablolarını kullanmanız gerekiyorsa bu özellikleri etkinleştirmeyin. Tüm Microsoft Fabric deneyimlerinde hangi protokol sürümlerinin ve özelliklerinin uyumlu olduğu hakkında daha fazla bilgi edinmek için Delta Lake tablo biçimi birlikte çalışabilirliği makalesini okuyun.

Çalışma Zamanı 2.0'da işlem yönetimi

Çalışma zamanı 2.0 aşağıdaki işlem yönetimi özelliklerini destekler:

  • Kaynak profilleri: Spark oturumları için önceden tanımlanmış kaynak ayırmalarını iş yükü gereksinimlerini karşılayacak ve maliyetleri denetleyecek şekilde yapılandırın.
  • Özel canlı havuzlar (önizleme):Oturum başlatma süresini azaltan ayrılmış, önceden ısıtılmış Spark havuzları oluşturun. Özel canlı havuzlar, Çalışma Zamanı 2.0 iş yükleri için önizlemede kullanılabilir.

Sınırlamalar ve notlar

  • Delta Lake 4.0'a özgü özellikler deneyseldir ve yalnızca not defterleri ve Spark iş tanımları gibi Spark deneyimlerinde çalışır. Birden çok Fabric iş yükünde aynı Delta Lake tablolarını kullanmanız gerekiyorsa, bu özellikleri etkinleştirmeyin. Daha fazla bilgi için bkz . Delta Lake tablo biçimi birlikte çalışabilirliği.
  • Çalışma Zamanı 2.0 genel önizleme aşamasındadır. Bazı özellikler ve API'ler genel kullanıma sunulmadan önce değişebilir.
  • Fabric Spark için VS Code uzantısı, not defteri ve Spark iş tanımı geliştirme için Çalışma Zamanı 2.0'ı destekler.