Doku Çalışma Zamanı 1.2 (EOSA)

Uyarı

Microsoft Fabric Runtime 1.2 desteğinin sonu duyuruldu. Microsoft Fabric Runtime 1.2, 31 Mart 2026'da kullanımdan kaldırılacaktır. Fabric çalışma alanınızı ve ortamlarınızıRuntime 1.3 (Apache Spark 3.5 ve Delta Lake 3.2) kullanacak şekilde yükseltmenizi kesinlikle öneririz.

Microsoft Fabric Runtime, veri mühendisliği ve veri bilimi deneyimlerinin yürütülmesini ve yönetilmesini sağlayan Apache Spark tabanlı Azure ile tümleşik bir platformdur. Bu belge Çalışma Zamanı 1.2 bileşenlerini ve sürümlerini kapsar.

Runtime 1.2'nin başlıca bileşenleri şunlardır:

  • Apache Spark 3.4.1
  • İşletim Sistemi: Mariner 2.0
  • Java: 11
  • Scala: 2.12.17
  • Python: 3.10
  • Delta Gölü: 2.4.0
  • R: 4.2.2

İpucu

Şu anda Çalışma Zamanı 1.3 olan üretim iş yükünüz için her zaman en son GA çalışma zamanı sürümünü kullanın.

Çalışma zamanı sürümünün seçileceği yeri gösteren ekran görüntüsü.

Microsoft Fabric Runtime 1.2, tam Anaconda yüklemesi ve Java/Scala, Python ve R için yaygın olarak kullanılan kitaplıklar da dahil olmak üzere varsayılan düzey paketlerden oluşan bir koleksiyonla birlikte gelir. Bu kitaplıklar, Microsoft Fabric platformunda not defterleri veya işler kullanılırken otomatik olarak eklenir. Kitaplıkların tam listesi için belgelere bakın. Microsoft Fabric, hata düzeltmeleri, performans iyileştirmeleri ve güvenlik yamaları sağlayarak Çalışma Zamanı 1.2 için düzenli aralıklarla bakım güncelleştirmeleri sunar. Güncel kalmak, veri işleme görevleriniz için en iyi performansı ve güvenilirliği sağlar.

Spark Sürüm 3.4.1'in yeni özellikleri ve iyileştirmeleri

Apache Spark 3.4.0, 3.x satırındaki beşinci sürümdür. Açık kaynak topluluğu tarafından desteklenen bu sürümde 2.600'den fazla Jira bileti çözüldü. Spark Connect için bir Python istemcisi tanıtır, eşzamansız ilerleme takibi ve Python ile durum bilgisi işleme olanaklarıyla Yapılandırılmış Akış'ı geliştirir. NumPy giriş desteğiyle Pandas API kapsamını genişletir, ANSI uyumluluğu ve yeni yerleşik işlevler aracılığıyla geleneksel veri ambarlarından geçişi basitleştirir. Ayrıca bellek profili oluşturma ile geliştirme üretkenliğini ve hata ayıklanabilirliğini artırır. Ayrıca Çalışma Zamanı 1.2, kararlılık düzeltmelerine odaklanan bir bakım sürümü olan Apache Spark 3.4.1'i temel alır.

Önemli noktalar

Hem Spark 3.4.0 hem de Spark 3.4.1'i ziyaret ederek belirli bir Apache Spark sürümü için sürüm notlarının tam sürümünü okuyun.

Yeni özel sorgu iyileştirmeleri

Spark'ta Eşzamanlı Yazma Desteği

'İşlem başarısız oldu: Belirtilen yol yok' iletisiyle 404 hatasıyla karşılaşmak, SQL INSERT INTO sorgusu kullanarak aynı tabloya paralel veri ekleme işlemleri yaparken sık karşılaşılan bir sorundur. Bu hata veri kaybına neden olabilir. Yeni özelliğimiz olan Dosya Çıktısı İşleme Algoritması bu sorunu çözerek müşterilerin paralel veri ekleme işlemini sorunsuz bir şekilde gerçekleştirmesini sağlar.

Bu özelliğe erişmek için Çalışma Zamanı 1.2'den (Spark 3.4) başlayarak varsayılan olarak etkinleştirilen özellik bayrağını etkinleştirin spark.sql.enable.concurrentWrites . Bu özellik diğer Spark 3 sürümlerinde de kullanılabilir olsa da, varsayılan olarak etkinleştirilmez. Bu özellik, her eşzamanlı işin aynı tablonun farklı bölümlerine dinamik olarak verilerin üzerine yazıldığı INSERT OVERWRITE sorgularının paralel yürütülmesini desteklemez. Bu amaçla Spark, spark.sql.sources.partitionOverwriteMode ayarını dinamik olarak yapılandırarak etkinleştirilebilen bir alternatif özellik sunar.

Başarısız işlemlerden dosyaları atlayan akıllı okuma işlemleri

Mevcut Spark committer sisteminde, bir tabloya veri ekleme işi başarısız olduğunda ancak bazı görevler başarılı olduğunda, başarılı görevler tarafından oluşturulan dosyalar başarısız işteki dosyalarla birlikte bulunur. Bu birlikte yaşama, başarılı ve başarısız işlere ait dosyaları ayırt etmek zorlaştığı için kullanıcıların kafa karışıklığına neden olabilir. Ayrıca, bir iş aynı tabloya eşzamanlı olarak veri eklerken bir iş tablodan okursa, okuma işi kaydedilmemiş verilere erişebilir. Yazma işi başarısız olursa, okuma işi yanlış verileri işleyebilecek.

Bayrağı spark.sql.auto.cleanup.enabled , bu sorunu ele alan yeni özelliğimizi denetler. Etkinleştirildiğinde Spark, tablodaki sorguları gerçekleştirirken spark.read veya seçtiğinde kaydedilmemiş okuma dosyalarını otomatik olarak atlar. Bu özellik etkinleştirilmeden önce yazılan dosyalar her zamanki gibi okunmaya devam ediyor.

Görünür değişiklikler şunlardır:

  • Tüm dosyalar artık dosya adlarına bir tid-{jobID} tanımlayıcı ekler.
  • _success Başarılı bir iş tamamlandığında genellikle çıkış konumunda oluşturulan işaretçi yerine yeni _committed_{jobID} bir işaretçi oluşturulur. Bu işaretleyici, başarılı İş Kimliklerini belirli dosya adlarıyla ilişkilendirir.
  • Kullanıcıların depolamayı yönetmek ve kaydedilmemiş dosyaları temizlemek için düzenli aralıklarla çalıştırabilecekleri yeni bir SQL komutu kullanıma sunulmuştur. Bu komutun söz dizimi aşağıdaki gibidir:
    • Belirli bir dizini temizlemek için: CLEANUP ('/path/to/dir') [RETAIN number HOURS];
    • Belirli bir tabloyu temizlemek için: CLEANUP [db_name.]table_name [RETAIN number HOURS]; Bu söz diziminde, path/to/dir temizlemenin gerekli olduğu konum URI'sini temsil eder ve number bekletme süresini temsil eden çift tür bir değerdir. Varsayılan saklama süresi yedi gün olarak ayarlanır.
  • varsayılan olarak olarak ayarlanan spark.sql.deleteUncommittedFilesWhileListing adlı falseyeni bir yapılandırma seçeneği kullanıma sunulmuştur. Bu seçeneğin etkinleştirilmesi, okunma sırasında kaydedilmemiş dosyaların otomatik olarak silinmesine neden olur, ancak bu senaryo okuma işlemlerini yavaşlatabilir. Bu bayrağı etkinleştirmek yerine küme boşta olduğunda temizleme komutunu el ile çalıştırmanız önerilir.

Çalışma Zamanı 1.1'den Çalışma Zamanı 1.2'ye geçiş kılavuzu

Apache Spark 3.3 tarafından desteklenen Çalışma Zamanı 1.1'den Apache Spark 3.4 tarafından desteklenen Çalışma Zamanı 1.2'ye geçiş yaparken resmi geçiş kılavuzunu gözden geçirin.

Delta Lake 2.4'ün yeni özellikleri ve iyileştirmeleri

Delta Lake, veri göllerinin üzerine bir göl evi mimarisi oluşturmayı sağlayan açık kaynak bir projedir. Delta Lake, ACID işlemleri, ölçeklenebilir meta veri işlemesi sağlar ve mevcut veri göllerinin üzerinde akış ve toplu veri işlemeyi birleştirir.

Delta Lake özellikle şunları sunar:

  • Spark'taki ACID işlemleri : Seri hale getirilebilir yalıtım düzeyleri, okuyucuların tutarsız verileri asla görmemesini sağlar.
  • Ölçeklenebilir meta veri işleme: Milyarlarca dosyayı kolayca içeren petabayt ölçeğindeki tabloların tüm meta verilerini işlemek için Spark dağıtılmış işleme gücünü kullanır.
  • Akış ve toplu işlem bütünleştirmesi: Delta Lake'teki bir tablo, bir toplu işlem tablosu, akış kaynağı ve çıktı olarak hizmet verir. Akış verisi alma, geçmişi toplu olarak doldurma ve etkileşimli sorgular, hepsi doğrudan çalışır.
  • Şema zorlama: Alma sırasında hatalı kayıtların eklenmesini önlemek için şema farklılıklarını otomatik olarak yönetir.
  • Zaman içinde geriye gitme: Veri sürümlendirme, geri dönüş işlemleri, tam denetim izleri ve tekrar üretilebilir makine öğrenmesi deneylerini sağlar.
  • Upserts ve deletes: Değişiklik-veri yakalama, yavaş değişen boyut (SCD) işlemleri, akış upsert'leri gibi karmaşık kullanım örneklerini etkinleştirmek için birleştirme, güncelleştirme ve silme işlemlerini destekler.

Delta Lake 2.4 sürüm notlarının tam sürümünü okuyun.

Java, Scala, Python kitaplıkları için varsayılan düzey paketler

Java, Scala, Python ve ilgili sürümleri için tüm varsayılan düzey paketlerin listesi için sürüm notlarına bakın.

  • Fabriğin Apache Spark Çalışma Zamanları hakkında dokümanda bilgi edinin - Genel Bakış, Sürüm Oluşturma, Birden Çok Çalışma Zamanı Desteği ve Delta Lake Protokolünün Güncellenmesi