OneLake ile Microsoft Fabric için medallion lakehouse mimarisini anlama

Genellikle madalyon mimarisi olarak bilinen madalyon göl evi mimarisi, bir göl evindeki verileri düzenlemek için kullanılan bir tasarım desenidir. Fabric için önerilen tasarım yaklaşımıdır. OneLake, Fabric'in veri gölü olduğu için, OneLake'de göl evleri oluşturarak medallion mimarisi uygulanır.

Madalyon mimarisi üç ayrı katmandan oluşur. Üç madalyon katman şunlardır: bronz (ham veri), gümüş (zenginleştirilmiş veri) ve altın (seçilmiş veriler). Her katman, göl evinde depolanan verilerin kalitesini gösterir ve daha yüksek düzeyler daha yüksek kaliteyi temsil eder.

Madalyon mimarisi, verilerinizin bölünmezlik, tutarlılık, yalıtım ve dayanıklılık (ACID) ilkelerine göre doğru ve güvenilir kalmasına yardımcı olur. Verileriniz ham biçimde başlar ve özgün kopyalar bir gerçek kaynağı olarak korunurken, doğrulama ve dönüştürme işlem hatlarınız verileri analize hazırlar.

Daha fazla bilgi için bkz . Madalyon göl evi mimarisi nedir?.

Seyirci

Bu makalede madalyon göl mimarisi tanıtılmaktadır ve Microsoft Fabric'te tasarım desenini nasıl uygulayabileceğiniz açıklanmaktadır. Birden çok hedef kitleye hedeflenmiştir:

  • Veri mühendisleri: Kuruluşlarının büyük hacimli verileri toplamasını, depolamasını, işlemesini ve analiz edebilmesini sağlayan altyapıları ve sistemleri tasarlayan, oluşturan ve bakımını yapan teknik personel.
  • Mükemmellik Merkezi, BT ve BI ekipleri: Kuruluş genelinde analizi denetlemekten sorumlu ekipler.
  • Doku yöneticileri: Kuruluşta Doku'ya denetimden sorumlu yöneticiler.

Madalyon mimarisi nedir?

Madalyon mimarinin amacı, verilerin yapısını ve kalitesini artımlı olarak geliştirmektir. Madalyon mimariyi verileriniz için üç aşamalı bir temizleme ve düzenleme süreci olarak düşünün. Her katman verilerinizi daha güvenilir ve kullanımı kolay hale getirir.

  1. Bronz (Ham): Her şeyi tam olarak geldiği gibi depolayın. Hiçbir değişikliğe izin verilmez.
  2. Silver (Zenginleştirilmiş): Hataları düzeltin, biçimleri standartlaştırıp yinelenenleri kaldırın.
  3. Gold (Curated): Raporlar ve gösterge tabloları için düzenleme.

Her katmanı OneLake'teki kendi göl evinde veya veri ambarında ayrı tutun; veriler dönüştürüldükçe ve iyileştirilirken katmanlar arasında hareket eder.

Veri kaynaklarını gösteren OneLake madalyon mimarisinin diyagramı, üç katmanla hazırlama ve dönüştürme, SQL ve Power BI ile analiz.

Fabric'teki tipik bir madalyon mimarisi uygulamasında bronz katman, verileri veri kaynağıyla aynı biçimde depolar. Veri kaynağı ilişkisel bir veritabanı olduğunda Delta tabloları iyi bir seçimdir. Gümüş ve altın katmanları Delta tabloları içermelidir.

İpucu

Bir lakehouse oluşturmayı öğrenmek için Lakehouse uçtan uca senaryo eğitimi ile çalışın.

Gerçek dünya örneği

Verilerine madalyon mimarisi uygulayan bir e-ticaret şirketinin aşağıdaki örneğini göz önünde bulundurun:

Bronz Katman:

  • Web sitesinden (JSON) ham satış verilerini depolama
  • Ambardan ham envanter verilerini depolama (CSV)
  • CRM'den ham müşteri verilerini depolama (SQL dışarı aktarma)

Gümüş Katman:

  • Tarih biçimlerini tüm kaynaklar arasında standartlaştırma
  • Tüm para birimini USD'ye dönüştür
  • Test işlemlerini kaldırma
  • Sistemlerde müşteri kayıtlarını eşleştirme

Altın Katman:

  • Günlük satış panosu tablosu oluşturma
  • Müşteri yaşam süresi değeri tablosu oluşturma
  • Stok tahmin tablosu oluşturma

OneLake'de madalyon mimarisi

Modern bir veri ambarının temeli bir veri gölüdür. Microsoft OneLake, kuruluşunuzun tamamı için tek, birleşik, mantıksal bir veri gölüdür. Her Fabric kiracısına otomatik olarak sağlanır ve tüm analiz verileriniz için tek konumdur.

Verileri OneLake'te depolamak için Fabric'te bir göl evi oluşturursunuz. Lakehouse, yapılandırılmış ve yapılandırılmamış verileri tek bir konumda depolamak, yönetmek ve analiz etmek için kullanılan bir veri mimarisi platformudur. Tüm dosya türlerinin ve boyutlarının büyük veri hacimlerine ölçeklendirilebilir ve veriler tek bir konumda depolandığından kuruluş genelinde paylaşılabilir ve yeniden kullanılabilir.

Daha fazla bilgi için bkz . Microsoft Fabric'te göl evi nedir?.

Tablolar ve dosyalar

OneLake'te bir göl evi oluşturduğunuzda, iki fiziksel depolama konumu otomatik olarak sağlanır:

  • Tablolar Apache Spark'ta (CSV, Parquet veya Delta) tüm biçimlerin tablolarını depolar.
  • Dosyalar verileri herhangi bir dosya biçiminde depolar. Dosyalar alanındaki verileri temel alan bir tablo oluşturmak istiyorsanız, tablo dosyalarını içeren klasörü gösteren bir kısayol oluşturabilirsiniz.

Bronz katmanda, verileri tablolar veya dosyalar olabilecek özgün biçiminde depolarsınız. Kaynak veriler OneLake, Azure Data Lake Store 2. Nesil (ADLS 2. Nesil), Amazon S3 veya Google'dan geliyorsa, verileri farklı bir katmana kopyalamak yerine bronz katmanda bir kısayol oluşturun.

Gümüş ve altın katmanlarında verileri genellikle Delta tablolarında depolarsınız. Ancak, verileri Parquet veya CSV dosyalarında da depolayabilirsiniz. Bunu yaparsanız, Apache Spark'taki Delta Lake dosyalarını içeren yönetilmeyen klasöre işaret eden bir konuma sahip bir kısayol veya dış tablo oluşturmanız gerekir.

Microsoft Fabric'te Lakehouse gezgini, kullanıcıların verilerinde gezinmesi, verilerine erişmesi ve verileri güncelleştirmesi için tüm Lakehouse'un birleşik bir grafik gösterimini sağlar.

Delta Lake depolama

Delta Lake, verileri ve tabloları depolamak için temel sağlayan iyileştirilmiş bir depolama katmanıdır. Büyük veri iş yükleri için ACID işlemlerini destekler ve bu nedenle bir Fabric lakehouse'ta varsayılan depolama biçimidir.

Delta Lake, hem akış hem de toplu işlemler için göl evinde güvenilirlik, güvenlik ve performans sunar. Dahili olarak, verileri Parquet dosya biçiminde depolar, ancak standart Parquet biçimine göre özellikler ve performans iyileştirmesi sağlayan işlem günlüklerini ve istatistiklerini de korur.

Delta Lake biçimi, genel dosya biçimleriyle karşılaştırıldığında aşağıdaki avantajları sunar:

  • ACID özellikleri için destek, özellikle de veri bozulmasını önlemeye yönelik dayanıklılık.
  • Daha hızlı okuma sorguları.
  • Daha fazla veri güncelliği.
  • Hem toplu iş yükleri hem de akış iş yükleri için destek.
  • Delta Lake zaman yolculuğunu kullanarak veri geri alımı desteği.
  • Delta Lake tablo geçmişini kullanarak gelişmiş mevzuat uyumluluğu ve denetimi.

Fabric, Delta Lake ile depolama dosyası biçimini standart hale getirir. Varsayılan olarak, Doku'daki her iş yükü altyapısı yeni bir tabloya veri yazdığınızda Delta tabloları oluşturur. Daha fazla bilgi için bkz . Lakehouse ve Delta Lake tabloları.

Dağıtım modeli

Fabric'te madalyon mimarisi uygulamak için lakehouses (her katman için bir tane), bir veri ambarı veya her ikisinin birleşimini kullanabilirsiniz. Kararınız tercihinize ve ekibinizin uzmanlığına dayalı olmalıdır. Doku ile OneLake'te verilerinizin tek kopyası üzerinde çalışan farklı analiz altyapılarını kullanabilirsiniz.

Dikkate alınması gereken iki desen aşağıdadır:

  • Desen 1: Her katmanı bir göl evi olarak oluşturun. Bu durumda, iş kullanıcıları SQL analiz uç noktasını kullanarak verilere erişmektedir.
  • Desen 2: Bronz ve gümüş katmanları göl evleri, altın katmanını ise veri ambarı olarak oluşturun. Bu durumda, iş kullanıcıları veri ambarı uç noktasını kullanarak verilere erişer.

Tek bir Doku çalışma alanında tüm göl evleri oluşturabilirsiniz ancak her göl evi kendi ayrı çalışma alanında oluşturmanızı öneririz. Bu yaklaşım, katman düzeyinde daha fazla denetim ve daha iyi idare sağlar.

Bronz katman için, verileri özgün biçiminde depolamanızı veya Parquet veya Delta Lake kullanmanızı öneririz. Mümkün olduğunda verileri özgün biçiminde tutun. Kaynak veriler OneLake, Azure Data Lake Store 2. Nesil (ADLS 2. Nesil), Amazon S3 veya Google'dan geliyorsa, verileri farklı bir katmana kopyalamak yerine bronz katmanda bir kısayol oluşturun.

Gümüş ve altın katmanları için, sağladığı ek özellikler ve performans geliştirmeleri nedeniyle Delta tablolarını kullanmanızı öneririz. Doku, Delta Lake biçiminde standart hale getirir ve Varsayılan olarak Doku'daki her altyapı verileri bu biçimde yazar. Ayrıca, bu motorlar Parquet dosya biçiminde V-Order yazma zamanı optimizasyonu kullanır. Bu iyileştirme, Power BI, SQL, Apache Spark ve diğerleri gibi Fabric işlem altyapılarının hızlı veri okuması yapabilmesini sağlar. Daha fazla bilgi için bkz . Delta Lake tablo iyileştirme ve V-Order.

Son olarak, günümüzde birçok kuruluş veri hacimlerinde çok büyük bir büyümeyle karşı karşıyadır ve bu verileri daha hedefli ve verimli kullanımı ve idareyi kolaylaştırırken mantıksal bir şekilde düzenleme ve yönetme ihtiyacı da artmaktadır. Bu, idare ile merkezi olmayan veya federasyona bağlı bir veri kuruluşu kurmanıza ve yönetmenize yol açabilir. Bu hedefe ulaşmak için bir veri ağı mimarisi uygulamayı göz önünde bulundurun. Veri ağı , ürün olarak veri sunan veri etki alanları oluşturmaya odaklanan bir mimari desendir.

Veri etki alanları oluşturarak Fabric içinde veri yapınız için bir veri ağı mimarisi oluşturabilirsiniz. Pazarlama, satış, envanter, insan kaynakları ve diğerleri gibi iş etki alanlarınızla eşleşen etki alanları oluşturabilirsiniz. Ardından etki alanlarınızın her biri içinde veri katmanları ayarlayarak madalyon mimarisi uygulayabilirsiniz. Etki alanları hakkında daha fazla bilgi için bkz . Etki alanları.

Madalyon mimarisi için oluşturulmuş göl görünümlerini kullanın

Microsoft Fabric'teki gerçekleştirilmiş göl görünümleri, göl evinizdeki madalyon mimariyi uygulamanıza yardımcı olur. Verileri bronz, gümüş ve altın katmanlar arasında dönüştürmek için karmaşık işlem hatları oluşturmak yerine, dönüşümleri otomatik olarak yöneten gerçekleştirilmiş göl görünümleri tanımlayabilirsiniz.

Madalyon mimarisi için gerçekleştirilmiş göl görünümlerini kullanmanın başlıca avantajları şunlardır:

  • Bildirim temelli işlem hatları: Katmanlar arasında el ile işlem hatları oluşturmak yerine SQL deyimlerini kullanarak veri dönüştürmeleri tanımlayın.
  • Otomatik bağımlılık yönetimi: Doku, görünüm bağımlılıklarına göre doğru yürütme sırasını otomatik olarak belirler.
  • Veri kalitesi kuralları: Veriler katmanlar arasında ilerledikçe veri kalitesi kısıtlamalarını tanımlamaya ve zorunlu kılmaya yönelik yerleşik destek.
  • En iyi yenileme: Sistem, her görünüm için artımlı, tam veya hiç yenileme yapılıp yapılmayacağını otomatik olarak belirler.
  • Görselleştirme ve izleme: Tüm katmanlardaki kökeni görüntüleyin ve yürütme ilerleme durumunu izleyin.

Örneğin, bronz tablolardaki verileri temizleyip birleştiren bir gümüş katmanı görünümü oluşturabilir ve ardından raporlama için gümüş katmanı verilerini toplayan altın katman görünümleri oluşturabilirsiniz. Sistem yenileme düzenlemesini otomatik olarak işler.

Daha fazla bilgi için bkz. Malzeme edilmiş göl görünümleri ile madalyon mimarisini uygulayın.

Delta tablosu veri depolamayı anlama

Bu bölümde, Fabric'te bir madalyon göl evi mimarisi uygulamayla ilgili diğer yönergeler açıklanmaktadır.

Dosya boyutu

Büyük veri platformu genellikle çok sayıda küçük dosya yerine birkaç büyük dosyaya sahip olduğunda daha iyi performans gösterir. İşlem altyapısında yönetilmesi gereken çok sayıda meta veri ve dosya işlemi olduğunda performans düşüşü oluşur. Daha iyi sorgu performansı için boyutu yaklaşık 1 GB olan veri dosyalarını hedeflemenizi öneririz.

Madalyon mimarisinin farklı katmanları, hangi tüketim altyapısının kullanılacağına bağlı olarak dosya boyutu için farklı gereksinimlere sahiptir. Bronz katmanda, Spark ile veri değişikliğine ve hazırlığına odaklandığınız sürece verilerin ham doğası nedeniyle daha küçük dosyalara sahip olabilirsiniz. Gümüş ve altın katmanlarında, tüketim motorlarının sorgu performansını geliştirmek için daha büyük dosya boyutları ve daha büyük satır grupları üzerinde iyileştirmeler yapmalısınız. Farklı katmanlar için dosya boyutlarını iyileştirme hakkında daha fazla bilgi edinmek için bkz. İş yükleri arası tablo bakımı ve iyileştirmesi.

Tarihsel koruma

Varsayılan olarak, Delta Lake yapılan tüm değişikliklerin geçmişini tutar, böylece geçmiş meta verilerin boyutu zaman içinde artar. İş gereksinimlerinize bağlı olarak, depolama maliyetlerinizi azaltmak için geçmiş verileri yalnızca belirli bir süre boyunca saklayın. Geçmiş verileri yalnızca son ay veya başka uygun bir süre boyunca saklamayı göz önünde bulundurun.

VACUUM komutunu kullanarak Delta tablosundan eski geçmiş verileri kaldırabilirsiniz. Ancak, varsayılan olarak son yedi gün içinde geçmiş verileri silemezsiniz. Bu kısıtlama, verilerdeki tutarlılığı korur. tablo özelliğiyle delta.deletedFileRetentionDuration = "interval <interval>"varsayılan gün sayısını yapılandırın. Bu özellik, bir dosyanın vakum işlemi adayı olarak kabul edilebilmesi için önce silinmesi gereken süreyi belirler.

Tablo bölümleri ve kümeleme

Verileri her katmanda depoladığınızda, uygun olduğunda bölümlenmiş bir klasör yapısı kullanmanızı öneririz. Bu teknik, veri yönetilebilirliğini ve sorgu performansını geliştirir. Genellikle, bir klasör yapısındaki bölümlenmiş veriler, bölüm ayıklama/ortadan kaldırma nedeniyle belirli veri girişlerinin daha hızlı aranmasına neden olur. Bölümleme, birden çok veri alım aracıyla uyumlu olduğundan Bronz katmanda yüksek sıklıkta veri alımı için genellikle iyi bir stratejidir. Ancak Silver ve Gold katmanları için sorgu performansını iyileştirmek için bölümleme yerine Liquid Clustering kullanmanızı öneririz. Farklı katmanları iyileştirme hakkında daha fazla bilgi edinmek için bkz. İş yükleri arası tablo bakımı ve iyileştirmesi.

Genellikle, yeni veriler geldikçe verileri hedef tablonuza eklersiniz. Ancak bazı durumlarda, mevcut verileri aynı anda güncelleştirmeniz gerektiğinden verileri birleştirebilirsiniz. Bu durumda, MERGE komutunu kullanarak bir upsert işlemi gerçekleştirebilirsiniz. Hedef tablonuz bölümlendiğinde işlemi hızlandırmak için bir bölüm filtresi kullandığınızdan emin olun. Bu şekilde altyapı, güncelleştirme gerektirmeyen bölümleri ortadan kaldırabilir.

Veri erişimi

Göl evinde belirli verilere kimlerin erişmesi gerektiğini planlamalı ve denetlemelisiniz. Ayrıca, her katman için bu verilere erişirken kullanacakları çeşitli işlem desenlerini de anlamanız gerekir.

İpucu

Her madalyon katmanının farklı iyileştirme gereksinimleri vardır. Bronz, gümüş ve altın katmanlarına yönelik tablo bakım stratejileriyle ilgili kapsamlı yönergeler ve V-Order'ın ne zaman etkinleştirileceği ve en uygun dosya boyutları için bkz. İş yükleri arası tablo bakımı ve iyileştirmesi.

Madalyon göl evi mimarisini uygulama hakkında daha fazla bilgi için aşağıdaki kaynaklara bakın.