OneLake ile Microsoft Fabric için medallion lakehouse mimarisini anlama

2025-04-22

Bu makalede madalyon göl mimarisi tanıtılmaktadır ve Microsoft Fabric'te tasarım desenini nasıl uygulayabileceğiniz açıklanmaktadır. Birden çok hedef kitleye hedeflenmiştir:

Veri mühendisleri: Kuruluşlarının büyük hacimli verileri toplamasını, depolamasını, işlemesini ve analiz edebilmesini sağlayan altyapıları ve sistemleri tasarlayan, oluşturan ve bakımını yapan teknik personel.
Mükemmellik Merkezi, BT ve BI ekipleri: Kuruluş genelinde analizi denetlemekten sorumlu ekipler.
Doku yöneticileri: Kuruluşta Doku'ya denetimden sorumlu yöneticiler.

Genellikle madalyon mimarisi olarak bilinen madalyon göl evi mimarisi, kuruluşlar tarafından bir göl evindeki verileri mantıksal olarak düzenlemek için kullanılan bir tasarım desenidir. Fabric için önerilen tasarım yaklaşımıdır. OneLake, Fabric'in veri gölü olduğu için, OneLake'de göl evleri oluşturarak medallion mimarisi uygulanır.

Madalyon mimarisi, bölgeler olarak da adlandırılan üç ayrı katmandan oluşur. Üç madalyon katman şunlardır: bronz (ham veri), gümüş (doğrulanmış veriler) ve altın (zenginleştirilmiş veriler). Her katman, göl evinde depolanan verilerin kalitesini gösterir ve daha yüksek düzeyler daha yüksek kaliteyi temsil eder. Bu çok katmanlı yaklaşım, kurumsal veri ürünleri için tek bir gerçek kaynağı oluşturmanıza yardımcı olur.

Daha da önemlisi, madalyon mimarisi veriler katmanlar arasında ilerledikçe bölünmezliği, tutarlılığı, yalıtımı ve dayanıklılığı (ACID) garanti eder. Verileriniz ham biçimde başlar, ardından bir dizi doğrulama ve dönüştürme, verileri verimli analiz için iyileştirmeye hazırlar ve özgün kopyaları bir gerçeklik kaynağı olarak korur.

Daha fazla bilgi için bkz . Madalyon göl evi mimarisi nedir?.

Fabric'te madalyon mimarisi

Madalyon mimarisinin amacı, her aşamada ilerledikçe verilerin yapısını ve kalitesini artımlı ve aşamalı olarak geliştirmektir.

Madalyon mimarisi üç ayrı katmandan (veya bölgelerden) oluşur.

Bronz:Ham bölge olarak da adlandırılan bu ilk katman, kaynak verileri yapılandırılmamış, yarı yapılandırılmış veya yapılandırılmış veri türleri de dahil olmak üzere özgün biçiminde depolar. Bu katmandaki veriler genellikle yalnızca eklenebilir ve değiştirilemezdir. Ham verileri bronz katmanda koruyarak bir gerçeklik kaynağı tutar ve gelecekte yeniden işlemeyi ve denetimi etkinleştirirsiniz.
Gümüş:Zenginleştirilmiş bölge olarak da adlandırılan bu katman, bronz katmandan alınan verileri depolar. Veriler temizlenmiş ve standartlaştırılmıştır ve artık tablolar (satırlar ve sütunlar) olarak yapılandırılmıştır. Müşteriler, ürünler ve daha fazlası gibi tüm iş varlıklarının kurumsal görünümünü sağlamak için diğer verilerle de tümleştirilebilir.
Altın: Seçilen bölge olarak da adlandırılan bu son katman, gümüş katmandan alınan verileri depolar. Veriler, belirli aşağı akış iş ve analiz gereksinimlerini karşılayacak şekilde geliştirilmiştir. Tablolar genellikle performans ve kullanılabilirlik için iyileştirilmiş veri modellerinin geliştirilmesini destekleyen yıldız şeması tasarımına uygundur.

OneLake'de her bir bölge, dönüştürülüp iyileştirilirken bölgeler arasında hareket eden verilerle kendi göl evi veya veri ambarı olarak ayrılmalıdır.

Veri kaynaklarını gösteren OneLake madalyon mimarisinin diyagramı, üç katmanla hazırlama ve dönüştürme, SQL ve Power BI ile analiz.

Tipik bir Fabric madalyon mimarisi uygulamasında, bronz bölge verileri veri kaynağıyla aynı formatta depolar. Veri kaynağı ilişkisel bir veritabanı olduğunda Delta tabloları iyi bir seçimdir. Gümüş ve altın renkli bölgeler Delta tabloları içermelidir.

İpucu

Bir lakehouse oluşturmayı öğrenmek için Lakehouse uçtan uca senaryo eğitimi ile çalışın.

Fabric'te OneLake ve göl evi

Modern bir veri ambarının temeli bir veri gölüdür. Microsoft OneLake, kuruluşunuzun tamamı için tek, birleşik, mantıksal bir veri gölüdür. Her Fabric kiracısına otomatik olarak sağlanır ve tüm analiz verileriniz için tek konumdur.

OneLake'i kullanarak:

Siloları kaldırın ve yönetim çabasını azaltın. Tüm kuruluş verileri tek bir data lake kaynağında depolanır, yönetilir ve güvenli hale getirilir .
Veri taşımayı ve yinelemeyi azaltma. OneLake'in amacı yalnızca bir veri kopyasını depolamaktır. Verilerin daha az kopyası daha az veri taşıma işlemine neden olur ve bu da verimlilik artışına ve karmaşıklığın azalmasına neden olur. OneLake'e kopyalamak yerine diğer konumlarda depolanan verilere başvurmak için kısayolları kullanın.
Birden çok analiz motoru ile kullanın. OneLake'deki veriler açık bir biçimde depolanır. Bu şekilde veriler Analysis Services (Power BI tarafından kullanılır), T-SQL ve Apache Spark gibi çeşitli analiz altyapıları tarafından sorgulanabilir. Doku olmayan diğer uygulamalar da OneLake'e erişmek için API'leri ve SDK'ları kullanabilir.

Verileri OneLake'te depolamak için Fabric'te bir göl evi oluşturursunuz. Lakehouse, yapılandırılmış ve yapılandırılmamış verileri tek bir konumda depolamak, yönetmek ve analiz etmek için kullanılan bir veri mimarisi platformudur. Tüm dosya türlerinin ve boyutlarının büyük veri hacimlerine ölçeklendirilebilir ve veriler tek bir konumda depolandığından kuruluş genelinde paylaşılabilir ve yeniden kullanılabilir.

Her göl evi, veri taşımaya gerek kalmadan veri ambarı özelliklerinin kilidini açan yerleşik bir SQL analiz uç noktasına sahiptir. Başka bir deyişle, SQL sorgularını kullanarak ve özel bir kurulum yapmadan verilerinizi lakehouse'da sorgulayabilirsiniz.

Daha fazla bilgi için bkz . Microsoft Fabric'te göl evi nedir?.

Tablolar ve dosyalar

OneLake'te bir göl evi oluşturduğunuzda, iki fiziksel depolama konumu otomatik olarak sağlanır:

Tablolar , Apache Spark'ta (CSV, Parquet veya Delta) tüm biçimlerin tablolarını depolamak için yönetilen bir alandır. Otomatik olarak veya açıkça oluşturulan tüm tablolar, göl evinde tablolar olarak kabul edilir. Dosya tabanlı işlem günlüğüne sahip Parquet veri dosyaları olan tüm Delta tabloları da tablo olarak kabul edilir.
Dosyalar , verileri herhangi bir dosya biçiminde depolamak için yönetilmeyen bir alandır. Bu alanda depolanan Delta dosyaları otomatik olarak tablo olarak tanınmaz. Yönetilmeyen alandaki Delta Lake klasörünün üzerinde tablo oluşturmak istiyorsanız, Apache Spark'taki Delta Lake dosyalarını içeren yönetilmeyen klasöre işaret eden bir konuma sahip bir kısayol veya dış tablo oluşturun.

Yönetilen alan (tablolar) ile yönetilmeyen alan (dosyalar) arasındaki temel ayrım, otomatik tablo bulma ve kayıt işlemidir. Bu işlem yalnızca yönetilen alanda oluşturulan herhangi bir klasör üzerinde çalışır, ancak yönetilmeyen alanda çalışmaz.

Bronz bölgede, verileri tablolar veya dosyalar olabilecek özgün biçiminde depolarsınız. Kaynak veriler OneLake, Azure Data Lake Store 2. Nesil (ADLS 2. Nesil), Amazon S3 veya Google'dan geliyorsa, verileri farklı bir bölgeye kopyalamak yerine bronz bölgede bir kısayol oluşturun.

Gümüş ve altın renkli bölgelerde verileri genellikle Delta tablolarında depolarsınız. Ancak, verileri Parquet veya CSV dosyalarında da depolayabilirsiniz. Bunu yaparsanız, Apache Spark'taki Delta Lake dosyalarını içeren yönetilmeyen klasöre işaret eden bir konuma sahip bir kısayol veya dış tablo oluşturmanız gerekir.

Microsoft Fabric'te Lakehouse gezgini, kullanıcıların verilerinde gezinmesi, verilerine erişmesi ve verileri güncelleştirmesi için tüm Lakehouse'un birleşik bir grafik gösterimini sağlar.

Otomatik tablo bulma hakkında daha fazla bilgi için bkz . Otomatik tablo bulma ve kayıt.

Delta Lake depolama

Delta Lake, verileri ve tabloları depolamak için temel sağlayan iyileştirilmiş bir depolama katmanıdır. Büyük veri iş yükleri için ACID işlemlerini destekler ve bu nedenle bir Fabric lakehouse'ta varsayılan depolama biçimidir.

Delta Lake, hem akış hem de toplu işlemler için göl evinde güvenilirlik, güvenlik ve performans sunar. Dahili olarak, verileri Parquet dosya biçiminde depolar, ancak standart Parquet biçimine göre özellikler ve performans iyileştirmesi sağlayan işlem günlüklerini ve istatistiklerini de korur.

Delta Lake biçimi, genel dosya biçimleriyle karşılaştırıldığında aşağıdaki avantajları sunar:

ACID özellikleri için destek, özellikle de veri bozulmasını önlemeye yönelik dayanıklılık.
Daha hızlı okuma sorguları.
Daha fazla veri güncelliği.
Hem toplu iş yükleri hem de akış iş yükleri için destek.
Delta Lake zaman yolculuğunu kullanarak veri geri alımı desteği.
Delta Lake tablo geçmişini kullanarak gelişmiş mevzuat uyumluluğu ve denetimi.

Fabric, Delta Lake ile depolama dosyası biçimini standart hale getirir. Varsayılan olarak, Doku'daki her iş yükü altyapısı yeni bir tabloya veri yazdığınızda Delta tabloları oluşturur. Daha fazla bilgi için bkz . Lakehouse ve Delta Lake tabloları.

Dağıtım modeli

Fabric'te madalyon mimarisini uygulamak için lakehouses (her bölge için bir tane), bir veri ambarı veya her ikisinin birleşimini kullanabilirsiniz. Kararınız tercihinize ve ekibinizin uzmanlığına dayalı olmalıdır. Doku ile OneLake'te verilerinizin tek kopyası üzerinde çalışan farklı analiz altyapılarını kullanabilirsiniz.

Dikkate alınması gereken iki desen aşağıdadır:

Desen 1: Her bölgeyi bir göl evi olarak oluşturun. Bu durumda, iş kullanıcıları SQL analiz uç noktasını kullanarak verilere erişmektedir.
Desen 2: Bronz ve gümüş bölgeleri göl evleri olarak, altın bölgeyi ise veri ambarı olarak oluşturun. Bu durumda, iş kullanıcıları veri ambarı uç noktasını kullanarak verilere erişer.

Tek bir Doku çalışma alanında tüm göl evleri oluşturabilirsiniz ancak her göl evi kendi ayrı çalışma alanında oluşturmanızı öneririz. Bu yaklaşım, bölge düzeyinde daha fazla denetim ve daha iyi idare sağlar.

Bronz bölge için, verileri özgün biçiminde depolamanızı veya Parquet veya Delta Lake kullanmanızı öneririz. Mümkün olduğunda verileri özgün biçiminde tutun. Kaynak veriler OneLake, Azure Data Lake Store 2. Nesil (ADLS 2. Nesil), Amazon S3 veya Google'dan geliyorsa, verileri farklı bir bölgeye kopyalamak yerine bronz bölgede bir kısayol oluşturun.

Gümüş ve altın alanlar için, sağladığı ek özellikler ve performans geliştirmeleri nedeniyle Delta tablolarını kullanmanızı öneririz. Doku, Delta Lake biçiminde standart hale getirir ve Varsayılan olarak Doku'daki her altyapı verileri bu biçimde yazar. Ayrıca, bu motorlar Parquet dosya biçiminde V-Order yazma zamanı optimizasyonu kullanır. Bu iyileştirme, Power BI, SQL, Apache Spark ve diğerleri gibi Fabric işlem altyapılarının hızlı veri okuması yapabilmesini sağlar. Daha fazla bilgi için bkz . Delta Lake tablo iyileştirme ve V-Order.

Son olarak, günümüzde birçok kuruluş veri hacimlerinde çok büyük bir büyümeyle karşı karşıyadır ve bu verileri daha hedefli ve verimli kullanımı ve idareyi kolaylaştırırken mantıksal bir şekilde düzenleme ve yönetme ihtiyacı da artmaktadır. Bu, idare ile merkezi olmayan veya federasyona bağlı bir veri kuruluşu kurmanıza ve yönetmenize yol açabilir. Bu hedefe ulaşmak için bir veri ağı mimarisi uygulamayı göz önünde bulundurun. Veri ağı , ürün olarak veri sunan veri etki alanları oluşturmaya odaklanan bir mimari desendir.

Veri etki alanları oluşturarak Fabric içinde veri yapınız için bir veri ağı mimarisi oluşturabilirsiniz. Pazarlama, satış, envanter, insan kaynakları ve diğerleri gibi iş etki alanlarınızla eşleşen etki alanları oluşturabilirsiniz. Daha sonra etki alanlarınızın her biri içinde veri bölgeleri ayarlayarak madalyon mimarisi uygulayabilirsiniz. Etki alanları hakkında daha fazla bilgi için bkz . Etki alanları.

Delta tablosu veri depolamayı anlama

Bu bölümde, Fabric'te bir madalyon göl evi mimarisi uygulamayla ilgili diğer yönergeler açıklanmaktadır.

Dosya boyutu

Büyük veri platformu genellikle çok sayıda küçük dosya yerine birkaç büyük dosyaya sahip olduğunda daha iyi performans gösterir. İşlem altyapısında yönetilmesi gereken çok sayıda meta veri ve dosya işlemi olduğunda performans düşüşü oluşur. Daha iyi sorgu performansı için boyutu yaklaşık 1 GB olan veri dosyalarını hedeflemenizi öneririz.

Delta Lake'in tahmine dayalı iyileştirme adlı bir özelliği vardır. Tahmine dayalı iyileştirme, Delta tabloları için bakım işlemlerini otomatikleştirir. Bu özellik etkinleştirildiğinde Delta Lake, bakım işlemlerinden yararlanabilecek tabloları tanımlar ve depolama alanlarını iyileştirir. Bu özellik operasyonel mükemmelliğinizin ve veri hazırlama çalışmanızın bir parçasını oluştursa da Fabric, veri yazma sırasında veri dosyalarını da iyileştirebilir. Daha fazla bilgi için bkz . Delta Lake için tahmine dayalı iyileştirme.

Tarihsel koruma

Varsayılan olarak, Delta Lake yapılan tüm değişikliklerin geçmişini tutar, böylece geçmiş meta verilerin boyutu zaman içinde artar. İş gereksinimlerinize bağlı olarak, depolama maliyetlerinizi azaltmak için geçmiş verileri yalnızca belirli bir süre boyunca saklayın. Geçmiş verileri yalnızca son ay veya başka uygun bir süre boyunca saklamayı göz önünde bulundurun.

VACUUM komutunu kullanarak Delta tablosundan eski geçmiş verileri kaldırabilirsiniz. Ancak, varsayılan olarak son yedi gün içinde geçmiş verileri silemezsiniz. Bu kısıtlama, verilerdeki tutarlılığı korur. tablo özelliğiyle delta.deletedFileRetentionDuration = "interval <interval>"varsayılan gün sayısını yapılandırın. Bu özellik, bir dosyanın vakum işlemi adayı olarak kabul edilebilmesi için önce silinmesi gereken süreyi belirler.

Tablo bölümleri

Verileri her bölgede depoladığınızda, uygun olduğunda bölümlenmiş bir klasör yapısı kullanmanızı öneririz. Bu teknik, veri yönetilebilirliğini ve sorgu performansını geliştirir. Genellikle, bir klasör yapısındaki bölümlenmiş veriler, bölüm ayıklama/ortadan kaldırma nedeniyle belirli veri girişlerinin daha hızlı aranmasına neden olur.

Genellikle, yeni veriler geldikçe verileri hedef tablonuza eklersiniz. Ancak bazı durumlarda, mevcut verileri aynı anda güncelleştirmeniz gerektiğinden verileri birleştirebilirsiniz. Bu durumda, MERGE komutunu kullanarak bir upsert işlemi gerçekleştirebilirsiniz. Hedef tablonuz bölümlendiğinde işlemi hızlandırmak için bir bölüm filtresi kullandığınızdan emin olun. Bu şekilde altyapı, güncelleştirme gerektirmeyen bölümleri ortadan kaldırabilir.

Veri erişimi

Göl evinde belirli verilere kimlerin erişmesi gerektiğini planlamalı ve denetlemelisiniz. Ayrıca, bu verilere erişirken kullanacakları çeşitli işlem desenlerini de anlamanız gerekir. Ardından doğru tablo bölümleme düzenini ve Delta Lake Z sırası dizinleriyle veri birlikte bulundurmayı tanımlayabilirsiniz.

Fabric lakehouse uygulama hakkında daha fazla bilgi için aşağıdaki kaynaklara bakın.

Eğitim: Lakehouse uçtan uca bir senaryo
Lakehouse ve Delta Lake tabloları
Microsoft Fabric karar kılavuzu: veri deposu seçme
Apache Spark'ta yazmayı iyileştirme gereksinimi
Sorularınız var mı? Fabric topluluğuna sormayı düşünün.
Öneri? Fabric'i geliştirmek için fikirler sunun.