Modern bir veri ambarı için veri depolamayı anlama

Tamamlandı

Kaynaktaki verileri doğrudan bir veri ambarı içine alma fırsatınız olsa da, kaynak verileri giriş bölgesi olarak da adlandırılan bir hazırlama alanında depolamak daha normaldir. Bu genellikle kaynak sistemler ile veri ambarı arasında yer alan nötr bir depolama alanıdır. Modern bir veri ambarı mimarisine hazırlama alanı eklemenin temel nedeni aşağıdaki nedenlerden biri olabilir:

Kaynak sistemlerde çekişmesini azaltmak için

Kaynak sistemler genellikle bir kuruluşa gelir getiren veya işletme için kritik öneme sahip bir işlev sağlayan iş operasyonlarının yerine getirilmesinde önemli bir rol oynar. Sonuç olarak, bu sistemlerden veri alımı, kaynak sistemdeki kaynak kullanımını en aza indirerek kesintiye uğratmamalıdır. Sonuç olarak, bazı veri ambarı tasarım stratejileri bir kaynakta veri yakalamayı ve verileri hazırlama alanına "dökümünü" içerir.

Bu yaklaşım hiçbir dönüştürme veya temizleme içermez. Yalnızca verileri alır, böylece kaynak sistemdeki çekişme en aza indirgenmiş olur. Bu, kaynak sistem çıkış verilerinin daha sonra Ayıklama, Dönüştürme ve Yükleme (ETL) işleminiz tarafından toplanan metin dosyalarına yüklenmesini de içerebilir.

Farklı zamanlamalarda kaynak sistemlerin alımıyla ilgilenmenizi sağlar.

Hazırlama ortamları, verilerin alındığı zamanlamaya bakılmaksızın farklı kaynak sistemlerden verileri depolamak için harika bir yer sağlar. Örneğin, bazı kaynak sistemlerden verileri akşam erken saatlerde alabilirsiniz çünkü bu, en sessiz oldukları zamandır ve verileri alabilmeniz için önce başka bir sistemden yedekleme işlemi çalıştırılana kadar sabahın erken saatlerine kadar olmayabilir. Hazırlama alanına sahip olmak, bu farklı zamanlamaları işlemenizi sağlar

Farklı kaynak sistemlerden verileri birleştirmek için

Hazırlama ortamı, farklı kaynak sistemlerden verilerin tek bir görünümünü bir araya getirme fırsatı sunar. Hazırlama alanı kaynak sistemlerden ve veri ambarından bağımsız olduğundan, bu sistemleri etkilemeden ihtiyacınız olan tüm işleri gerçekleştirme özgürlüğüne sahip olursunuz.

Hatta eşleme tabloları olarak adlandırılan farklı kaynak sistemlerden verileri birleştirme işlemine yardımcı olabilecek ek tablolar da oluşturabilirsiniz. Bu senaryoda, tek bir kaynak sistemde, FirstName adlı bir sütuna sahip bir müşterinin tablosuna sahip olduğunuzu düşünün. as400 sistemi çalıştıran ikinci bir kaynak sistemde, müşterinin tablosunun FIRNAM adlı sütunu vardır ve bu da müşterinin adını temsil eder.

Bir kaynak sistemdeki bir sütundaki verileri, aynı iş varlığını temsil eden başka bir kaynak sistemdeki başka bir sütunla eşleyen meta veriler içeren ayrı bir tablo oluşturabilirsiniz. Bu örnekte ad.

Hazırlama alanından başarısız olan veri ambarı yüklemelerini yeniden çalıştırmak için

Tüm veri ambarı yüklemeleri başarıyla tamamlanmaz, bu nedenle veri ambarınızın ETL işleminin yeniden çalıştırılmasının temel iş saatlerinde gerçekleşmesi ve kaynak sistemleri yeniden kesintiye uğratmadan gerçekleşmesi gereken senaryoları işleyebilmesi gerekir. Hazırlama verilerini tutarak ETL işlemini kaynak sistem yerine hazırlama alanından yeniden çalıştırabilirsiniz.

Modern bir veri ambarı mimarisinde kaynak veriler çok çeşitli olabilir. Günümüzde oluşturulan ve analiz edilen verilerinin çeşitlilik ve hacmi artıyor. Şirketler, web sitelerinden Satış Noktası (POS) sistemlerine ve son zamanlarda sosyal medya sitelerinden Nesnelerin İnterneti (IoT) cihazlarına varan çeşitlilikte veri kaynaklarına sahip. Her kaynak, verilerin toplanması, analiz edilmesi ve belki de üzerinde işlem yapılması gereken temel bir yönünü sağlar.

Buna bağlı olarak Azure Data Lake 2. Nesil, veri gölü olarak bilinen büyük veri analizine ayrılmış bir dizi özellik içerdiğinden hazırlama verilerini barındırmak için ideal depolama çözümüdür. Veri gölü, genellikle blob veya dosya olan doğal biçiminde depolanmış verilerin deposudur. Azure Data Lake Storage Azure'da yerleşik büyük veri analizi için kapsamlı, ölçeklenebilir ve uygun maliyetli bir veri gölü çözümüdür.

Azure Data Lake Storage, verilerinizdeki içgörüleri hızlıca tanımlamanıza yardımcı olmak için bir dosya sistemini bir depolama platformu ile bir araya getirir. Data Lake Storage 2. Nesil, özellikle analiz iş yükleri için iyileştirilmesi amacıyla Azure Blob depolama özelliklerini geliştirir. Bu tümleştirme Blob depolamanın katmanlama ve veri yaşam döngüsü yönetimi özellikleri ile Azure Depolama’nın yüksek kullanılabilirlik, güvenlik ve dayanıklılık özellikleri ile birlikte analiz performansını artırır.