Share via


Microsoft Fabric'te madalyon göl evi mimarisi uygulama

Bu makalede madalyon göl mimarisi tanıtılmaktadır ve Microsoft Fabric'te bir lakehouse'u nasıl uygulayabileceğiniz açıklanmaktadır. Birden çok hedef kitleye hedeflenmiştir:

  • Veri mühendisleri: Kuruluşlarının büyük hacimli verileri toplamasını, depolamasını, işlemesini ve analiz edebilmesini sağlayan altyapıları ve sistemleri tasarlayan, oluşturan ve bakımını yapan teknik personel.
  • Mükemmellik Merkezi, BT ve BI ekibi: Kuruluş genelinde analiz denetlemekten sorumlu ekipler.
  • Doku yöneticileri: Kuruluşta Doku'ya denetimden sorumlu yöneticiler.

Genellikle madalyon mimarisi olarak bilinen madalyon göl evi mimarisi, kuruluşlar tarafından bir göl evindeki verileri mantıksal olarak düzenlemek için kullanılan bir tasarım desenidir. Doku için önerilen tasarım yaklaşımıdır.

Madalyon mimarisi üç ayrı katmandan (veya bölgelerden) oluşur. Her katman, göl evinde depolanan verilerin kalitesini gösterir ve daha yüksek düzeyler daha yüksek kaliteyi temsil eder. Bu çok katmanlı yaklaşım, kurumsal veri ürünleri için tek bir gerçek kaynağı oluşturmanıza yardımcı olur.

Daha da önemlisi, madalyon mimarisi, veriler katmanlar arasında ilerledikçe ACID özellikleri kümesini (Bölünmezlik, Tutarlılık, Yalıtım ve Dayanıklılık) garanti eder. Ham verilerden başlayarak, bir dizi doğrulama ve dönüştürme, verimli analiz için en iyi duruma getirilmiş verileri hazırlar. Üç madalyon aşama vardır: bronz (ham), gümüş (doğrulanmış) ve altın (zenginleştirilmiş).

Daha fazla bilgi için bkz . Madalyon göl evi mimarisi nedir?.

Dokuda OneLake ve lakehouse

Modern bir veri ambarının temeli bir veri gölüdür. Tüm kuruluşunuz için tek, birleşik, mantıksal bir veri gölü olan Microsoft OneLake. Her Doku kiracısıyla otomatik olarak sağlanır ve tüm analiz verileriniz için tek konum olacak şekilde tasarlanmıştır.

OneLake'i kullanarak:

  • Siloları kaldırın ve yönetim çabasını azaltın. Tüm kuruluş verileri tek bir data lake kaynağında depolanır, yönetilir ve güvenli hale getirilir . OneLake, Doku kiracınızla sağlandığından, sağlanabilir veya yönetilebilir başka kaynak yoktur.
  • Veri taşımayı ve yinelemeyi azaltma. OneLake'in amacı yalnızca bir veri kopyasını depolamaktır. Verilerin daha az kopyası daha az veri taşıma işlemine neden olur ve bu da verimlilik artışına ve karmaşıklığın azalmasına neden olur. Gerekirse, OneLake'e kopyalamak yerine başka konumlarda depolanan verilere başvurmak için bir kısayol oluşturabilirsiniz.
  • Birden çok analiz motoru ile kullanın. OneLake'deki veriler açık bir biçimde depolanır. Bu şekilde veriler Analysis Services (Power BI tarafından kullanılır), T-SQL ve Spark gibi çeşitli analiz altyapıları tarafından sorgulanabilir. Doku olmayan diğer uygulamalar da OneLake'e erişmek için API'leri ve SDK'ları kullanabilir.

Daha fazla bilgi için bkz . OneLake, OneDrive verileri.

Verileri OneLake'te depolamak için Fabric'te bir göl evi oluşturursunuz. Lakehouse, yapılandırılmış ve yapılandırılmamış verileri tek bir konumda depolamak, yönetmek ve analiz etmek için kullanılan bir veri mimarisi platformudur. Tüm dosya türlerinin ve boyutlarının büyük veri hacimlerine kolayca ölçeklendirilebilir ve tek bir konumda depolandığından kuruluş genelinde kolayca paylaşılabilir ve yeniden kullanılabilir.

Her göl evi, veri taşımaya gerek kalmadan veri ambarı özelliklerinin kilidini açan yerleşik bir SQL analiz uç noktasına sahiptir. Başka bir deyişle, SQL sorgularını kullanarak ve özel bir kurulum yapmadan verilerinizi lakehouse'da sorgulayabilirsiniz.

Daha fazla bilgi için bkz . Microsoft Fabric'te göl evi nedir?.

Tablolar ve dosyalar

Fabric'te bir lakehouse oluşturduğunuzda, tablolar ve dosyalar için otomatik olarak iki fiziksel depolama konumu sağlanır.

  • Tablolar , Spark'ta (CSV, Parquet veya Delta) tüm biçimlerin tablolarını barındırmak için yönetilen bir alandır. Otomatik olarak veya açıkça oluşturulan tüm tablolar, göl evinde tablolar olarak kabul edilir. Ayrıca, dosya tabanlı işlem günlüğüne sahip Parquet veri dosyaları olan tüm Delta tabloları da tablo olarak kabul edilir.
  • Dosyalar , verileri herhangi bir dosya biçiminde depolamak için yönetilmeyen bir alandır. Bu alanda depolanan Delta dosyaları otomatik olarak tablo olarak tanınmaz. Yönetilmeyen alandaki Delta Lake klasörü üzerinde tablo oluşturmak istiyorsanız, Spark'taki Delta Lake dosyalarını içeren yönetilmeyen klasöre işaret eden bir konuma sahip bir kısayol veya dış tablo oluşturmanız gerekir.

Yönetilen alan (tablolar) ile yönetilmeyen alan (dosyalar) arasındaki temel ayrım, otomatik tablo bulma ve kayıt işlemidir. Bu işlem yalnızca yönetilen alanda oluşturulan herhangi bir klasör üzerinde çalışır, ancak yönetilmeyen alanda çalışmaz.

Microsoft Fabric'te Lakehouse gezgini, kullanıcıların verilerinde gezinmesi, verilerine erişmesi ve verileri güncelleştirmesi için tüm Lakehouse'un birleşik bir grafik gösterimini sağlar.

Otomatik tablo bulma hakkında daha fazla bilgi için bkz . Otomatik tablo bulma ve kayıt.

Delta Lake storage

Delta Lake, verileri ve tabloları depolamak için temel sağlayan iyileştirilmiş bir depolama katmanıdır. Büyük veri iş yükleri için ACID işlemlerini destekler ve bu nedenle bir Fabric lakehouse'ta varsayılan depolama biçimidir.

Önemli olan Delta Lake, hem akış hem de toplu işlemler için göl evinde güvenilirlik, güvenlik ve performans sunar. Dahili olarak, verileri Parquet dosya biçiminde depolar, ancak standart Parquet biçimine göre özellikler ve performans iyileştirmesi sağlayan işlem günlüklerini ve istatistiklerini de korur.

Genel dosya biçimlerine göre Delta Lake biçimi aşağıdaki temel avantajları sağlar.

  • ACID özellikleri ve özellikle veri bozulmasını önlemek için dayanıklılık desteği.
  • Daha hızlı okuma sorguları.
  • Daha fazla veri güncelliği.
  • Hem toplu iş yükleri hem de akış iş yükleri için destek.
  • Delta Lake zaman yolculuğu kullanarak veri geri alma desteği.
  • Delta Lake tablo geçmişini kullanarak gelişmiş mevzuat uyumluluğu ve denetimi.

Doku, Delta Lake ile depolama dosyası biçimini standart hale getirir ve varsayılan olarak Doku'daki her iş yükü altyapısı, yeni bir tabloya veri yazdığınızda Delta tabloları oluşturur. Daha fazla bilgi için bkz . Lakehouse ve Delta Lake tabloları.

Dokuda madalyon mimarisi

Madalyon mimarisinin amacı, her aşamada ilerledikçe verilerin yapısını ve kalitesini artımlı ve aşamalı olarak geliştirmektir.

Madalyon mimarisi üç ayrı katmandan (veya bölgelerden) oluşur.

  • Bronz: Ham bölge olarak da bilinen bu ilk katman, kaynak verileri özgün biçiminde depolar. Bu katmandaki veriler genellikle yalnızca ekleme ve sabittir.
  • Gümüş: Zenginleştirilmiş bölge olarak da bilinen bu katman, bronz katmandan alınan verileri depolar. Ham veriler temizlenmiş ve standartlaştırılmıştır ve artık tablolar (satırlar ve sütunlar) olarak yapılandırılmıştır. Müşteri, ürün ve diğerleri gibi tüm iş varlıklarının kurumsal görünümünü sağlamak için diğer verilerle de tümleştirilebilir.
  • Altın: Seçilen bölge olarak da bilinen bu son katman, gümüş katmandan alınan verileri depolar. Veriler, belirli aşağı akış iş ve analiz gereksinimlerini karşılayacak şekilde geliştirilmiştir. Tablolar genellikle performans ve kullanılabilirlik için iyileştirilmiş veri modellerinin geliştirilmesini destekleyen yıldız şeması tasarımına uygundur.

Önemli

Fabric lakehouse tek bir bölgeyi temsil ettiğinden, üç bölgenin her biri için bir göl evi oluşturursunuz.

Veri kaynaklarını gösteren, bronz, gümüş ve altın katmanlarla hazırlayıp dönüştüren, SQL analiz uç noktası ve Power BI ile analiz eden OneLake madalyon mimarisinin bir örneğinin diyagramı.

Doku'daki tipik bir madalyon mimari uygulamasında bronz bölge verileri veri kaynağıyla aynı biçimde depolar. Veri kaynağı ilişkisel bir veritabanı olduğunda Delta tabloları iyi bir seçimdir. Gümüş ve altın renkli alanlar Delta tablolarını içerir.

İpucu

Göl evi oluşturmayı öğrenmek için Lakehouse uçtan uca senaryo öğreticisi ile çalışın.

Fabric lakehouse rehberi

Bu bölümde, madalyon mimarisini kullanarak Fabric lakehouse'unuzu uygulamayla ilgili rehberlik sağlanır.

Dağıtım modeli

Fabric'te madalyon mimarisini uygulamak için lakehouses (her bölge için bir tane), bir veri ambarı veya her ikisinin birleşimini kullanabilirsiniz. Kararınız tercihinize ve ekibinizin uzmanlığına dayalı olmalıdır. Doku'nun size esneklik sağladığını unutmayın: OneLake'te verilerinizin tek kopyası üzerinde çalışan farklı analiz altyapılarını kullanabilirsiniz.

Dikkate alınması gereken iki desen aşağıdadır.

  • Desen 1: Her bölgeyi bir göl evi olarak oluşturun. Bu durumda, iş kullanıcıları SQL analiz uç noktasını kullanarak verilere erişmektedir.
  • Desen 2: Bronz ve gümüş bölgeleri göl evleri, altın bölgeyi ise veri ambarı olarak oluşturun. Bu durumda, iş kullanıcıları veri ambarı uç noktasını kullanarak verilere erişer.

Tüm lakehouse'ları tek bir Fabric çalışma alanında oluşturabilirsiniz ancak her göl evi kendi ayrı Doku çalışma alanında oluşturmanızı öneririz. Bu yaklaşım, bölge düzeyinde daha fazla denetim ve daha iyi idare sağlar.

Bronz bölge için, verileri özgün biçiminde depolamanızı veya Parquet veya Delta Lake kullanmanızı öneririz. Mümkün olduğunda verileri özgün biçiminde tutun. Kaynak veriler OneLake, Azure Data Lake Store 2. Nesil (ADLS 2. Nesil), Amazon S3 veya Google'dan geliyorsa, verileri farklı bir bölgeye kopyalamak yerine bronz bölgede bir kısayol oluşturun.

Gümüş ve altın alanlar için, sağladığı ek özellikler ve performans geliştirmeleri nedeniyle Delta tablolarını kullanmanızı öneririz. Doku, Delta Lake biçiminde standart hale getirir ve Varsayılan olarak Doku'daki her altyapı verileri bu biçimde yazar. Ayrıca, bu altyapılar Parquet dosya biçiminde V-Order yazma zamanı iyileştirmesini kullanır. Bu iyileştirme, Power BI, SQL, Spark ve diğerleri gibi Doku işlem altyapılarının son derece hızlı okumasını sağlar. Daha fazla bilgi için bkz . Delta Lake tablo iyileştirme ve V-Order.

Son olarak, günümüzde birçok kuruluş veri hacimlerinde çok büyük bir büyümeyle karşı karşıyadır ve bu verileri daha hedefli ve verimli kullanımı ve idareyi kolaylaştırırken mantıksal bir şekilde düzenleme ve yönetme ihtiyacı da artmaktadır. Bu, idare ile merkezi olmayan veya federasyona bağlı bir veri kuruluşu kurmanıza ve yönetmenize yol açabilir.

Bu hedefe ulaşmak için bir veri ağı mimarisi uygulamayı göz önünde bulundurun. Veri ağı , ürün olarak veri sunan veri etki alanları oluşturmaya odaklanan bir mimari desendir.

Veri etki alanları oluşturarak Doku'da veri varlığınız için bir veri ağı mimarisi oluşturabilirsiniz. Pazarlama, satış, envanter, insan kaynakları ve diğerleri gibi iş etki alanlarınızla eşleşen etki alanları oluşturabilirsiniz. Daha sonra etki alanlarınızın her biri içinde veri bölgeleri ayarlayarak madalyon mimarisi uygulayabilirsiniz.

Etki alanları hakkında daha fazla bilgi için bkz . Etki alanları.

Delta tablosu veri depolamayı anlama

Bu bölümde, Fabric'te bir madalyon göl evi mimarisi uygulamayla ilgili diğer rehberlik konuları açıklanmaktadır.

Dosya boyutu

Büyük veri platformu genellikle çok sayıda küçük dosya yerine az sayıda büyük dosyaya sahip olduğunda daha iyi performans gösterir. Bunun nedeni, işlem altyapısının birçok meta veri ve dosya işlemini yönetmesi gerektiğinde performans düşüşü oluşmasıdır. Daha iyi sorgu performansı için boyutu yaklaşık 1 GB olan veri dosyalarını hedeflemenizi öneririz.

Delta Lake'in tahmine dayalı iyileştirme adlı bir özelliği vardır. Tahmine dayalı iyileştirme, Delta tabloları için bakım işlemlerini el ile yönetme gereksinimini ortadan kaldırır. Bu özellik etkinleştirildiğinde Delta Lake, bakım işlemlerinden yararlanabilecek tabloları otomatik olarak tanımlar ve depolama alanlarını iyileştirir. Çok sayıda küçük dosyayı saydam bir şekilde büyük dosyalar halinde birleştirebilir ve verilerin diğer okuyucularını ve yazıcılarını etkilemez. Bu özellik operasyonel mükemmelliğinizin ve veri hazırlama çalışmanızın bir parçasını oluştursa da Fabric, veri yazma sırasında bu veri dosyalarını da iyileştirme özelliğine sahiptir. Daha fazla bilgi için bkz . Delta Lake için tahmine dayalı iyileştirme.

Geçmiş saklama

Varsayılan olarak Delta Lake, yapılan tüm değişikliklerin geçmişini tutar. Bu, geçmiş meta verilerin boyutunun zaman içinde arttığını gösterir. İş gereksinimlerinize bağlı olarak, depolama maliyetlerinizi azaltmak için geçmiş verileri yalnızca belirli bir süre boyunca saklamayı hedeflemeniz gerekir. Geçmiş verileri yalnızca son ay veya başka uygun bir süre boyunca saklamayı göz önünde bulundurun.

VACUUM komutunu kullanarak Delta tablosundan eski geçmiş verileri kaldırabilirsiniz. Ancak, varsayılan olarak son yedi gün içinde geçmiş verileri silemezsiniz; bu, verilerdeki tutarlılığı korumaktır. Varsayılan gün sayısı tablo özelliği delta.deletedFileRetentionDuration = "interval <interval>"tarafından denetlenmektedir. Bir dosyanın vakum işlemi adayı olarak kabul edilebilmesi için önce silinmesi gereken süreyi belirler.

Tablo bölümleri

Verileri her bölgede depoladığınızda, uygun olduğunda bölümlenmiş bir klasör yapısı kullanmanızı öneririz. Bu teknik, veri yönetilebilirliğini ve sorgu performansını geliştirmeye yardımcı olur. Genellikle, bir klasör yapısındaki bölümlenmiş veriler, bölüm ayıklama/ortadan kaldırma sayesinde belirli veri girişlerini daha hızlı aramayla sonuçlanır.

Genellikle, yeni veriler geldikçe verileri hedef tablonuza eklersiniz. Ancak bazı durumlarda, mevcut verileri aynı anda güncelleştirmeniz gerektiğinden verileri birleştirebilirsiniz. Bu durumda, MERGE komutunu kullanarak bir upsert işlemi gerçekleştirebilirsiniz. Hedef tablonuz bölümlendiğinde işlemi hızlandırmak için bir bölüm filtresi kullandığınızdan emin olun. Bu şekilde altyapı, güncelleştirme gerektirmeyen bölümleri ortadan kaldırabilir.

Veri erişimi

Son olarak, göl evinde belirli verilere kimlerin erişmesi gerektiğini planlamalı ve denetlemelisiniz. Ayrıca, bu verilere erişirken kullanacakları çeşitli işlem desenlerini de anlamanız gerekir. Ardından doğru tablo bölümleme düzenini ve Delta Lake Z sırası dizinleriyle veri birlikte bulundurmayı tanımlayabilirsiniz.

Fabric lakehouse uygulama hakkında daha fazla bilgi için aşağıdaki kaynaklara bakın.