Fabric Çalışma Zamanı 2.0 (Önizleme)

Önemli

Bu özellik önizleme aşamasındadır.

Fabric Runtime, Microsoft Fabric ekosisteminde sorunsuz tümleştirme sağlayarak Apache Spark tarafından desteklenen veri mühendisliği ve veri bilimi projeleri için sağlam bir ortam sunar.

Bu makalede, Microsoft Fabric'teki büyük veri hesaplamaları için tasarlanmış en son çalışma zamanı olan Fabric Runtime 2.0 Genel Önizlemesi tanıtıldı. Bu sürümü ölçeklenebilir analiz ve gelişmiş iş yükleri için önemli bir adım haline getiren temel özellikleri ve bileşenleri vurgular.

Fabric Runtime 2.0, veri işleme özelliklerinizi geliştirmek için tasarlanmış aşağıdaki bileşenleri ve yükseltmeleri içerir:

  • Apache Spark 4.1
  • İşletim Sistemi: Azure Linux 3.0 (Mariner 3.0)
  • Java: 21
  • Scala: 2.13
  • Python: 3.13
  • Delta Gölü: 4.1
  • R: 4.5.2

Önemli

Fabric Runtime 2.0 Spark 4.1, Delta Lake 4.1 ve Python 3.13'e güncelleştirildi. Portalda görüntülenen Fabric Çalışma Zamanı sürümü (Ortam UX'te Çalışma Alanı ayarları ve Çalışma Zamanı seçeneği) değişmez.

Bileşen Önceki sürüm Güncel sürüm
Spark 4.0 4.1
Delta Gölü 4.0 4.1
Python 3.12 3.13

Çalışma Zamanı 2.0 sürümünün Spark 4.0, Delta 4.0'dan Spark 4.1, Delta 4.1 sürümüne değiştiğini gösteren ekran görüntüsü.

Breaking change: Python yükseltmesi, kitaplıkları olan her Ortamı yeniden yayımlamanızı gerektirir. Yeniden yayımlayana kadar Genel kitaplıklar ve Özel kitaplıklar sekmeleri boş görünür ve etkilenen Ortamı hedefleyen Spark işleri "Modül bulunamadı" veya "Sınıf bulunamadı" hatalarıyla başarısız olur.

Gerekli eylemler

  • Her ortamdan kitaplık listenizi kaydedin veya dışarı aktarın.
  • Kitaplıkları yeniden ekleyin ve bunları Spark 4.1'e göre yeniden derlemek için Yayımla'yı seçin.

İpucu

Fabric Runtime 2.0, daha fazla maliyet olmadan performansı önemli ölçüde geliştirebilen Yerel Yürütme Altyapısı desteği içerir. Tüm işlerin ve not defterlerinin gelişmiş performans özelliklerini otomatik olarak devralması için yerel yürütme altyapısını ortam düzeyinde etkinleştirebilirsiniz.

Çalışma Zamanı 2.0'i etkinleştirme

Çalışma zamanı 2.0'i çalışma alanı düzeyinde veya ortam öğesi düzeyinde etkinleştirebilirsiniz. Çalışma alanınızdaki tüm Spark iş yükleri için varsayılan olarak Çalışma Zamanı 2.0'ı uygulamak için çalışma alanı ayarını kullanın. Alternatif olarak, çalışma alanı varsayılanını geçersiz kılan belirli not defterleriyle veya Spark iş tanımlarıyla kullanmak üzere Çalışma Zamanı 2.0 ile bir ortam öğesi oluşturun.

Çalışma Alanı ayarlarında Çalışma Zamanı 2.0'ı etkinleştirme

Çalışma Zamanı 2.0'ı tüm çalışma alanınız için varsayılan olarak ayarlamak için:

  1. Fabric çalışma alanınızdaki Çalışma Alanı ayarları sayfasına gidin.

    Çalışma alanı ayarları için çalışma zamanı sürümünün seçileceği yeri gösteren ekran görüntüsü.

  2. Veri Mühendisliği/Bilim sekmesini ve ardından Spark ayarları'nı seçin.

  3. Ortam sekmesini seçin.

  4. Çalışma zamanı sürümü açılan listesinde 2.0 Genel Önizleme (Spark 4.1, Delta 4.1) öğesini seçin ve değişikliklerinizi kaydedin.

  5. Çalışma zamanı 2.0, çalışma alanınız için varsayılan çalışma zamanı olarak ayarlanır.

Ortam öğesinde Çalışma Zamanı 2.0'i etkinleştirme

Çalışma Zamanı 2.0'ı belirli not defterleriyle veya Spark iş tanımlarıyla kullanmak için:

  1. Yeni bir Ortam öğesi oluşturun veya var olan bir öğeyi açın.

  2. Çalışma Zamanı açılan listesinde 2.0 Genel Önizleme (Spark 4.1, Delta 4.1), Değişikliklerinizi kaydet ve yayımla'yı seçin.

    Ortam öğesi için çalışma zamanı sürümünün seçileceği yeri gösteren ekran görüntüsü.

  3. Ardından, bu Ortam öğesini Not Defterinizle veya Spark İş Tanımınızla kullanabilirsiniz.

Artık Fabric Runtime 2.0'da (Spark 4.1 ve Delta Lake 4.1) sunulan en yeni iyileştirmeler ve işlevlerle denemeler yapmaya başlayabilirsiniz.

Uyarı

Genel Amaçlı v2 (GPv2) Azure Depolama hesapları için WASB protokolü kullanım dışıdır. GPv2 depolama hesaplarından okuma ve GPv2 depolama hesaplarına yazma yerine en son ABFS protokollerini kullanmanız gerekir.

Genel önizleme

Fabric Runtime 2.0 genel önizleme aşaması, hem Spark 4.1 hem de Delta Lake 4.1'den yeni özelliklere ve API'lere erişmenizi sağlar. Önizleme, yeni Java, Scala ve Python sürümleri gibi gelişmiş ve geliştirilmiş değişiklikler için sorunsuz bir hazır olma ve geçiş sağlamanın yanı sıra en son Spark ve Delta tabanlı geliştirmeleri hemen kullanmanıza olanak tanır.

İpucu

Güncel bilgiler, değişikliklerin ayrıntılı bir listesi ve Fabric çalışma zamanlarına yönelik belirli sürüm notları için Spark Çalışma Zamanları Yayınları ve Güncellemeleri'ne göz atın ve abone olun.

Önemli noktalar

Performans ve yürütme altyapısı geliştirmeleri

Fabric Runtime 2.0, açık kaynak Spark üzerinde önemli performans geliştirmeleri sağlayan Yerel Yürütme Altyapısı'nı içerir. Motor işleyici, kod değişikliğine gerek kalmadan lakehouse altyapısındaki Spark sorgularını hızlandırmak için vektörleştirilmiş işleme kullanır.

Çalışma Zamanı 2.0'daki temel performans özellikleri:

  • Altı kata kadar daha hızlı: Karşılaştırmalar, TPC-DS iş yüklerinde açık kaynak Spark ile karşılaştırıldığında altı kata kadar daha hızlı performans gösterir.
  • Vektörleştirilmiş CSV ayrıştırma: Yerel yürütme altyapısı, CSV alımını ve sorgu iş yüklerini hızlandıran vektörleştirilmiş bir CSV ayrıştırıcısı içerir. Gelecekteki güncelleştirmeler için vektörleştirilmiş JSON ayrıştırma ve Spark Yapılandırılmış Akış desteği planlanıyor.

Yerel yürütme altyapısını etkinleştirmek için bkz. Doku Veri Mühendisliği için yerel yürütme altyapısı.

Apache Spark 4.1

Apache Spark 4.0 , 4.x serisinin ilk sürümü olarak önemli bir kilometre taşını işaret etti ve canlı açık kaynak topluluğunun kolektif çalışmasını içeriyordu. Fabric Runtime 2.0 artık Apache Spark 4.1 üzerinde çalıştırılır ve bu da temel üzerinde ek geliştirmeler sağlar.

Bu sürümde Spark SQL, DEĞIŞKEN veri türü desteği, SQL kullanıcı tanımlı işlevler, oturum değişkenleri, kanal söz dizimi ve dize harmanlaması gibi SQL iş yükleri için ifade ve çok yönlülüğü artırmak üzere tasarlanmış güçlü yeni özelliklerle önemli ölçüde zenginleştirilmiştir. PySpark'in hem işlevsel genişliğini hem de genel geliştirici deneyimini iyileştirmeye yönelik sürekli bağlılığı, yerleşik bir çizim API'si, yeni bir Python Veri Kaynağı API'si, Python UDTF'ler için destek ve PySpark UDF'leri için birleşik profil oluşturmanın yanı sıra birçok başka geliştirme getiriyor. Yapılandırılmış Akış, özellikle daha esnek durum yönetimi için Rastgele Durum API'sinin v2 ve daha kolay hata ayıklama için Durum Veri Kaynağı'nın kullanıma sunulması gibi daha fazla denetim ve hata ayıklama kolaylığı sağlayan temel eklemelerle gelişir.

Tam listeyi ve ayrıntılı değişiklikleri buradan de kontrol edebilirsiniz:

Uyarı

Spark 4.x'te SparkR kullanım dışıdır ve gelecekteki bir sürümde kaldırılabilir.

Delta Lake 4.1

Delta Lake 4.1, Delta Lake 4.0 kilometre taşı sürümünü derleyerek Delta Lake'i farklı biçimlerde birlikte çalışabilir, daha kolay çalışılabilir ve daha yüksek performanslı hale getirme taahhüdünü sürdürmektedir. Açık data lakehouse'ların geleceği için güçlü yeni özellikler, performans iyileştirmeleri ve temel iyileştirmeler içerir.

Delta Lake 3.3, 4.0 ve 4.1 ile sunulan tam listeyi ve ayrıntılı değişiklikleri buradan de kontrol edebilirsiniz:

Veri düzeni ve iyileştirme

Çalışma zamanı 2.0, Delta tabloları için veri düzeni ve iyileştirme özelliklerini destekler:

  • Z sıralama: Filtrelenmiş sorgular için sorgu performansını geliştirmek için Delta tablo dosyalarındaki verileri belirtilen sütunlara göre düzenleyin.
  • Sıvı Kümelemesi: El ile bakım yapmadan veri düzenini otomatik olarak en iyi duruma getiren esnek bir kümeleme yaklaşımı.
  • Paralel Delta anlık görüntüsü yükleme: Yerel yürütme altyapısı Delta tablosu anlık görüntülerini paralel olarak yükleyerek büyük tablolar için sorgu başlatma süresini kısaltır.

Önemli

Delta Lake 4.1'e özgü özellikler deneyseldir ve yalnızca Not Defterleri ve Spark İş Tanımları gibi Spark deneyimlerinde çalışır. Birden çok Microsoft Fabric iş yükünde aynı Delta Lake tablolarını kullanmanız gerekiyorsa bu özellikleri etkinleştirmeyin. Tüm Microsoft Fabric deneyimlerinde hangi protokol sürümlerinin ve özelliklerinin uyumlu olduğu hakkında daha fazla bilgi edinmek için Delta Lake tablo biçimi birlikte çalışabilirliği makalesini okuyun.

Çalışma Zamanı 2.0'da işlem yönetimi

Çalışma zamanı 2.0 aşağıdaki işlem yönetimi özelliklerini destekler:

  • Kaynak profilleri: Spark oturumları için önceden tanımlanmış kaynak ayırmalarını iş yükü gereksinimlerini karşılayacak ve maliyetleri denetleyecek şekilde yapılandırın.
  • Özel canlı havuzlar (önizleme):Oturum başlatma süresini azaltan ayrılmış, önceden ısıtılmış Spark havuzları oluşturun. Özel canlı havuzlar, Çalışma Zamanı 2.0 iş yükleri için önizlemede kullanılabilir.

Sınırlamalar ve notlar

  • Delta Lake 4.x'e özgü özellikler deneyseldir ve yalnızca not defterleri ve Spark iş tanımları gibi Spark deneyimlerinde çalışır. Birden çok Fabric iş yükünde aynı Delta Lake tablolarını kullanmanız gerekiyorsa, bu özellikleri etkinleştirmeyin. Daha fazla bilgi için bkz . Delta Lake tablo biçimi birlikte çalışabilirliği.
  • Çalışma Zamanı 2.0 genel önizleme aşamasındadır. Bazı özellikler ve API'ler genel kullanıma sunulmadan önce değişebilir.
  • Fabric Spark için VS Code uzantısı, not defteri ve Spark iş tanımı geliştirme için Çalışma Zamanı 2.0'ı destekler.