Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Önemli
Bu özellik önizleme aşamasındadır.
Fabric Runtime, Microsoft Fabric ekosisteminde sorunsuz tümleştirme sağlayarak Apache Spark tarafından desteklenen veri mühendisliği ve veri bilimi projeleri için sağlam bir ortam sunar.
Bu makalede, Microsoft Fabric'teki büyük veri hesaplamaları için tasarlanmış en son çalışma zamanı olan Fabric Runtime 2.0 Genel Önizlemesi tanıtıldı. Bu sürümü ölçeklenebilir analiz ve gelişmiş iş yükleri için önemli bir adım haline getiren temel özellikleri ve bileşenleri vurgular.
Fabric Runtime 2.0, veri işleme özelliklerinizi geliştirmek için tasarlanmış aşağıdaki bileşenleri ve yükseltmeleri içerir:
- Apache Spark 4.0
- İşletim Sistemi: Azure Linux 3.0 (Mariner 3.0)
- Java: 21
- Scala: 2.13
- Python: 3.12
- Delta Gölü: 4.0
- R: 4.5.2
İpucu
Fabric Runtime 2.0, daha fazla maliyet olmadan performansı önemli ölçüde geliştirebilen Yerel Yürütme Altyapısı desteği içerir. Tüm işlerin ve not defterlerinin gelişmiş performans özelliklerini otomatik olarak devralması için yerel yürütme altyapısını ortam düzeyinde etkinleştirebilirsiniz.
Çalışma Zamanı 2.0'i etkinleştirme
Çalışma zamanı 2.0'i çalışma alanı düzeyinde veya ortam öğesi düzeyinde etkinleştirebilirsiniz. Çalışma alanınızdaki tüm Spark iş yükleri için varsayılan olarak Çalışma Zamanı 2.0'ı uygulamak için çalışma alanı ayarını kullanın. Alternatif olarak, çalışma alanı varsayılanını geçersiz kılan belirli not defterleriyle veya Spark iş tanımlarıyla kullanmak üzere Çalışma Zamanı 2.0 ile bir ortam öğesi oluşturun.
Çalışma Alanı ayarlarında Çalışma Zamanı 2.0'ı etkinleştirme
Çalışma Zamanı 2.0'ı tüm çalışma alanınız için varsayılan olarak ayarlamak için:
Fabric çalışma alanınızdaki Çalışma Alanı ayarları sayfasına gidin.
Veri Mühendisliği/Bilim sekmesini ve ardından Spark ayarları'nı seçin.
Ortam sekmesini seçin.
Çalışma zamanı sürümü açılan listesinden 2.0 Genel Önizleme (Spark 4.0, Delta 4.0) öğesini seçin ve değişikliklerinizi kaydedin.
Çalışma zamanı 2.0, çalışma alanınız için varsayılan çalışma zamanı olarak ayarlanır.
Ortam öğesinde Çalışma Zamanı 2.0'i etkinleştirme
Çalışma Zamanı 2.0'ı belirli not defterleriyle veya Spark iş tanımlarıyla kullanmak için:
Yeni bir Ortam öğesi oluşturun veya var olan bir öğeyi açın.
Çalışma Zamanı açılır menüsünden 2.0 Genel Önizleme (Spark 4.0, Delta 4.0)
Saveseçin vePublishdeğişikliklerinizi yapın.Ardından, bu Ortam öğesini
NotebookveyaSpark Job Definitionile kullanabilirsiniz.
Artık Fabric Runtime 2.0'da (Spark 4.0 ve Delta Lake 4.0) sunulan en yeni iyileştirmeler ve işlevlerle denemeler yapmaya başlayabilirsiniz.
İpucu
Genel önizleme sırasında Çalışma Zamanı 2.0 için ilk Spark oturumu başlatma işlemi birkaç dakika sürebilir. Soğuk başlangıç gecikmelerini azaltmak için Spark havuzlarını önceden ısındırmak amacıyla Özel Canlı Havuzlar'ı (önizleme) kullanın. Alternatif olarak, kaynakları önceden ayırmak için Kaynak Profillerini yapılandırabilirsiniz.
Uyarı
Genel Amaçlı v2 (GPv2) Azure Depolama hesapları için WASB protokolü kullanım dışıdır. GPv2 depolama hesaplarından okuma ve GPv2 depolama hesaplarına yazma yerine en son ABFS protokollerini kullanmanız gerekir.
Genel önizleme
Fabric Runtime 2.0 genel önizleme aşaması, hem Spark 4.0 hem de Delta Lake 4.0'dan yeni özelliklere ve API'lere erişmenizi sağlar. Önizleme, yeni Java, Scala ve Python sürümleri gibi gelişmiş ve geliştirilmiş değişiklikler için sorunsuz bir hazır olma ve geçiş sağlamanın yanı sıra en son Spark ve Delta tabanlı geliştirmeleri hemen kullanmanıza olanak tanır.
İpucu
Güncel bilgiler, değişikliklerin ayrıntılı bir listesi ve Fabric çalışma zamanlarına yönelik belirli sürüm notları için Spark Çalışma Zamanları Yayınları ve Güncellemeleri'ne göz atın ve abone olun.
Önemli noktalar
Performans ve yürütme altyapısı geliştirmeleri
Fabric Runtime 2.0, açık kaynak Spark üzerinde önemli performans geliştirmeleri sağlayan Yerel Yürütme Altyapısı'nı içerir. Motor işleyici, kod değişikliğine gerek kalmadan lakehouse altyapısındaki Spark sorgularını hızlandırmak için vektörleştirilmiş işleme kullanır.
Çalışma Zamanı 2.0'daki temel performans özellikleri:
- Altı kata kadar daha hızlı: Karşılaştırmalar, TPC-DS iş yüklerinde açık kaynak Spark ile karşılaştırıldığında altı kata kadar daha hızlı performans gösterir.
- Vektörleştirilmiş CSV ayrıştırma: Yerel yürütme altyapısı, CSV alımını ve sorgu iş yüklerini hızlandıran vektörleştirilmiş bir CSV ayrıştırıcısı içerir. Gelecekteki güncelleştirmeler için vektörleştirilmiş JSON ayrıştırma ve Spark Yapılandırılmış Akış desteği planlanıyor.
Yerel yürütme altyapısını etkinleştirmek için bkz. Doku Veri Mühendisliği için yerel yürütme altyapısı.
Apache Spark 4.0
Apache Spark 4.0, 4.x serisinin ilk sürümü olarak önemli bir kilometre taşını işaret ediyor ve canlı açık kaynak topluluğunun kolektif çalışmasını somutlaştırıyor.
Bu sürümde Spark SQL, DEĞIŞKEN veri türü desteği, SQL kullanıcı tanımlı işlevler, oturum değişkenleri, kanal söz dizimi ve dize harmanlaması gibi SQL iş yükleri için ifade ve çok yönlülüğü artırmak üzere tasarlanmış güçlü yeni özelliklerle önemli ölçüde zenginleştirilmiştir. PySpark'in hem işlevsel genişliğini hem de genel geliştirici deneyimini iyileştirmeye yönelik sürekli bağlılığı, yerleşik bir çizim API'si, yeni bir Python Veri Kaynağı API'si, Python UDTF'ler için destek ve PySpark UDF'leri için birleşik profil oluşturmanın yanı sıra birçok başka geliştirme getiriyor. Yapılandırılmış Akış, özellikle daha esnek durum yönetimi için Rastgele Durum API'sinin v2 ve daha kolay hata ayıklama için Durum Veri Kaynağı'nın kullanıma sunulması gibi daha fazla denetim ve hata ayıklama kolaylığı sağlayan temel eklemelerle gelişir.
Tam listeyi ve ayrıntılı değişiklikleri burada kontrol edebilirsiniz: https://spark.apache.org/releases/spark-release-4-0-0.html.
Uyarı
Spark 4.0'da SparkR kullanım dışıdır ve gelecekteki bir sürümde kaldırılabilir.
Delta Lake 4.0
Delta Lake 4.0, Delta Lake'i biçimler arasında birlikte çalışabilir, daha kolay çalışılabilir ve daha yüksek performanslı hale getirmek için kolektif bir taahhüdü işaret ediyor. Delta 4.0, açık data lakehouse'ların geleceği için güçlü yeni özellikler, performans iyileştirmeleri ve temel iyileştirmelerle dolu bir kilometre taşı sürümüdür.
Delta Lake 3.3 ve 4.0 ile sunulan tam listeyi ve ayrıntılı değişiklikleri buradan de kontrol edebilirsiniz: https://github.com/delta-io/delta/releases/tag/v3.3.0. https://github.com/delta-io/delta/releases/tag/v4.0.0.
Veri düzeni ve iyileştirme
Çalışma zamanı 2.0, Delta tabloları için veri düzeni ve iyileştirme özelliklerini destekler:
- Z sıralama: Filtrelenmiş sorgular için sorgu performansını geliştirmek için Delta tablo dosyalarındaki verileri belirtilen sütunlara göre düzenleyin.
- Sıvı Kümelemesi: El ile bakım yapmadan veri düzenini otomatik olarak en iyi duruma getiren esnek bir kümeleme yaklaşımı.
- Paralel Delta anlık görüntüsü yükleme: Yerel yürütme altyapısı Delta tablosu anlık görüntülerini paralel olarak yükleyerek büyük tablolar için sorgu başlatma süresini kısaltır.
Önemli
Delta Lake 4.0'a özgü özellikler deneyseldir ve yalnızca Not Defterleri ve Spark İş Tanımları gibi Spark deneyimlerinde çalışır. Birden çok Microsoft Fabric iş yükünde aynı Delta Lake tablolarını kullanmanız gerekiyorsa bu özellikleri etkinleştirmeyin. Tüm Microsoft Fabric deneyimlerinde hangi protokol sürümlerinin ve özelliklerinin uyumlu olduğu hakkında daha fazla bilgi edinmek için Delta Lake tablo biçimi birlikte çalışabilirliği makalesini okuyun.
Çalışma Zamanı 2.0'da işlem yönetimi
Çalışma zamanı 2.0 aşağıdaki işlem yönetimi özelliklerini destekler:
- Kaynak profilleri: Spark oturumları için önceden tanımlanmış kaynak ayırmalarını iş yükü gereksinimlerini karşılayacak ve maliyetleri denetleyecek şekilde yapılandırın.
- Özel canlı havuzlar (önizleme):Oturum başlatma süresini azaltan ayrılmış, önceden ısıtılmış Spark havuzları oluşturun. Özel canlı havuzlar, Çalışma Zamanı 2.0 iş yükleri için önizlemede kullanılabilir.
Sınırlamalar ve notlar
- Delta Lake 4.0'a özgü özellikler deneyseldir ve yalnızca not defterleri ve Spark iş tanımları gibi Spark deneyimlerinde çalışır. Birden çok Fabric iş yükünde aynı Delta Lake tablolarını kullanmanız gerekiyorsa, bu özellikleri etkinleştirmeyin. Daha fazla bilgi için bkz . Delta Lake tablo biçimi birlikte çalışabilirliği.
- Çalışma Zamanı 2.0 genel önizleme aşamasındadır. Bazı özellikler ve API'ler genel kullanıma sunulmadan önce değişebilir.
- Fabric Spark için VS Code uzantısı, not defteri ve Spark iş tanımı geliştirme için Çalışma Zamanı 2.0'ı destekler.
İlgili içerik
- Fabric'teki Apache Spark Çalışma Ortamları - Genel Bakış, Sürüm Oluşturma ve Birden Çok Çalışma Ortamı Desteği
- Spark Core geçiş kılavuzu
- SQL, Veri Kümeleri ve DataFrame geçiş kılavuzları
- Yapılandırılmış Akış Geçiş Kılavuzu
- MLlib (Machine Learning) geçiş kılavuzu
- PySpark (Spark üzerinde Python) geçiş kılavuzu
- SparkR (R on Spark) geçiş kılavuzu