Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Büyük veri mimarisi, geleneksel veritabanı sistemleri için çok büyük veya karmaşık olan verilerin alımını, işlenmesini ve analizini yönetir. Büyük veri alanına girme eşiği, kuruluşlar arasında araçlarına ve kullanıcı özelliklerine bağlı olarak değişir. Bazı kuruluşlar yüzlerce gigabayt veri yönetirken, diğer kuruluşlar yüzlerce terabayt yönetir. Büyük veri kümeleriyle çalışmaya yönelik araçlar geliştikçe, büyük verilerin tanımı yalnızca veri boyutuna odaklanmaktan gelişmiş analizden türetilen değeri vurgulamaya geçer. Bu tür senaryolar büyük miktarda veriye sahip olma eğilimindedir.
Yıllar içinde veri manzarası değişti. Verilerle yapabilecekleriniz veya yapmanız beklenenler değişti. Veri toplama yöntemleri genişlemeye devam ederken depolama maliyeti önemli ölçüde düştü. Bazı veriler hızlı bir şekilde gelir ve sürekli toplama ve gözlem gerektirir. Diğer veriler daha yavaş, ancak büyük parçalar halinde ve genellikle onlarca yıllık geçmiş veri biçiminde gelir. Gelişmiş bir analiz sorunuyla veya makine öğrenmesi gerektiren bir sorunla karşılaşabilirsiniz. Büyük veri mimarileri bu zorlukları çözmeye çalışır.
Büyük veri çözümleri genellikle aşağıdaki iş yükü türlerinden birini veya daha fazlasını içerir:
- Depolanmış büyük veri kaynaklarını toplu işleme
- Hareket halindeki büyük verilerin gerçek zamanlı işlenmesi
- Büyük verilerin etkileşimli keşfi
- Tahmine dayalı analiz ve makine öğrenmesi
Aşağıdaki görevleri gerçekleştirmeniz gerektiğinde büyük veri mimarilerini göz önünde bulundurun:
- Verileri geleneksel veritabanı için çok büyük birimlerde depolama ve işleme
- Yapılandırılmamış verileri analiz ve raporlama için dönüştürme
- İlişkisiz veri akışlarını gerçek zamanlı olarak veya düşük gecikme süresiyle yakalayın, işleyin ve analiz edin
Büyük veri mimarisinin bileşenleri
Aşağıdaki diyagramda büyük veri mimarisinin mantıksal bileşenleri gösterilmektedir. Tek tek çözümler bu diyagramdaki her öğeyi içermeyebilir.
Büyük veri mimarilerinin çoğu aşağıdaki bileşenlerin bazılarını veya tümünü içerir:
Veri kaynakları: Tüm büyük veri çözümleri bir veya daha fazla veri kaynağıyla başlar. Örnekler şunları içerir:
- İlişkisel veritabanları gibi uygulama veri depoları.
- Web sunucusu günlük dosyaları gibi uygulamaların ürettiği statik dosyalar.
- Nesnelerin İnterneti (IoT) cihazları gibi gerçek zamanlı veri kaynakları.
Veri depolama: Toplu işleme işlemleri için veriler genellikle çeşitli biçimlerde yüksek hacimli büyük dosyaları tutabilen dağıtılmış bir dosya deposunda depolanır. Bu tür depolar genellikle
veri gölü olarak adlandırılır. Bu depolamayı uygulama seçenekleri arasında Azure Data Lake Store, Azure Depolama'daki blob kapsayıcıları veya Microsoft Fabric'te OneLake bulunur. Toplu işlem: Veri kümeleri büyük olduğundan büyük bir veri çözümü genellikle verileri filtrelemek, toplamak ve başka şekilde analize hazırlamak için uzun süre çalışan toplu işleri kullanarak veri dosyalarını işler. Bu işler genellikle kaynak dosyaları okumayı, bunları işlemeyi ve çıkışı yeni dosyalara yazmayı içerir. Aşağıdaki seçenekleri kullanabilirsiniz:
- Azure Databricks not defterlerinde Python, Scala veya SQL dilini kullanın.
- Doku not defterlerinde Python, Scala veya SQL dilini kullanın.
Gerçek zamanlı ileti alımı: Çözüm gerçek zamanlı kaynaklar içeriyorsa, mimarinin akış işleme için gerçek zamanlı iletileri yakalaması ve depolaması gerekir. Örneğin, işleme için gelen iletileri toplayan basit bir veri deponuz olabilir. Ancak, birçok çözümün iletiler için bir arabellek görevi görecek ve ölçeklendirme işlemi, güvenilir teslimat ve diğer ileti kuyruklama mantıklarını desteklemek için iletilerin alındığı bir depo gerekir. Akış mimarisinin bu bölümü genellikle akış arabelleği olarak adlandırılır. Azure Event Hubs, Azure IoT Hub ve Kafka seçenekleri mevcuttur.
Akış işleme: Çözüm gerçek zamanlı iletileri yakaladıklarından sonra verileri filtreleyerek, toplayarak ve analiz için hazırlayarak bunları işlemelidir. İşlenen akış verileri daha sonra bir çıkış havuzuna yazılır.
- Azure Databricks'te Spark Streaming gibi açık kaynak Apache akış teknolojilerini kullanabilir, akış teknolojilerinden faydalanabilirsiniz.
- Azure İşlevleri, basit akış işleme görevleri için ideal olan olay temelli kodu çalıştırabilen sunucusuz bir işlem hizmetidir.
- "Fabric, olay akışlarını ve Spark işlemeyi kullanarak gerçek zamanlı veri işlemeyi destekler."
Analitik veri deposu: Birçok büyük veri çözümü verileri analiz için hazırlar ve sonra işlenen verileri analiz araçlarının sorgulayabileceğiniz yapılandırılmış bir biçimde sunar. Bu sorgulara hizmet veren analiz veri deposu, Kimball stili ilişkisel veri ambarı olabilir. Geleneksel iş zekası (BI) çözümlerinin çoğu bu veri ambarı türünü kullanır. Alternatif olarak, verileri HBase gibi düşük gecikme süreli bir NoSQL teknolojisi veya dağıtılmış veri deposundaki veri dosyaları üzerinde meta veri soyutlaması sağlayan etkileşimli bir Hive veritabanı aracılığıyla sunabilirsiniz.
- Fabric; SQL veritabanları, veri ambarları, göl evleri ve olay evleri gibi çeşitli veri depoları sağlar. Bu araçlar analiz için veri sağlayabilir.
- Azure, Azure Databricks, Azure Veri Gezgini, Azure SQL Veritabanı ve Azure Cosmos DB gibi diğer analiz veri depoları sağlar.
Analiz ve raporlama: Büyük veri çözümlerinin çoğu analiz ve raporlama yoluyla veriler hakkında içgörüler sağlamaya çalışır. Kullanıcılara verileri analiz etme gücü vermek için mimari, Azure Analysis Services'te çok boyutlu çevrimiçi analitik işlem küpü veya tablosal veri modeli gibi bir veri modelleme katmanı içerebilir. Ayrıca Power BI veya Excel'deki modelleme ve görselleştirme teknolojilerini kullanarak self servis BI'ı da destekleyebilirsiniz.
Veri bilimcileri veya veri analistleri etkileşimli veri keşfi aracılığıyla da analiz edebilir ve raporlayabilir. Bu senaryolarda, birçok Azure hizmeti jupyter gibi analitik not defterlerini desteklemektedir ve bu kullanıcıların Python veya Microsoft R ile mevcut becerilerini kullanmalarını sağlar. Büyük ölçekli veri keşfi için Microsoft R Server'ı tek başına veya Spark ile kullanabilirsiniz. Veri modelleme ve analizde esneklik ve verimlilik sağlamak için veri modellerini düzenlerken Fabric'i de kullanabilirsiniz.
Orkestrasyon: Büyük veri çözümlerinin çoğu, iş akışlarında kapsüllenen yinelenen veri işleme işlemlerinden oluşur. İşlemler aşağıdaki görevleri gerçekleştirir:
- Kaynak verileri dönüştürme
- Verileri birden çok kaynak ve havuz arasında taşıma
- İşlenen verileri analiz veri deposuna yükleme
- Sonuçları doğrudan bir rapora veya panoya gönderme
Bu iş akışlarını otomatikleştirmek için Azure Data Factory, Fabric veya Apache Oozie ve Apache Sqoop gibi bir düzenleme teknolojisi kullanın.
Lambda mimarisi
Büyük veri kümeleriyle çalışırken istemcilerin ihtiyaç duyduğu sorgu türlerini çalıştırmak uzun sürebilir. Bu sorgular gerçek zamanlı olarak gerçekleştirilemez ve genellikle tüm veri kümesinde paralel olarak çalışan MapReduce gibi dağıtılmış işleme algoritmaları gerektirir. Sorgu sonuçları ham verilerden ayrı olarak depolanır ve daha fazla sorgulama için kullanılır.
Bu yaklaşımın bir dezavantajı, gecikme süresine neden olmasıdır. İşlem birkaç saat sürerse, sorgu birkaç saatlik sonuçlar döndürebilir. İdeal olarak, doğrulukta olası bir düşüşle gerçek zamanlı olarak bazı sonuçlar almanız ve bu sonuçları toplu analiz sonuçlarıyla birleştirmeniz gerekiyor.
Lambda mimarisi, veri akışı için iki yol oluşturarak bu sorunu giderir. Sisteme gelen tüm veriler aşağıdaki iki yoldan geçer:
Toplu iş katmanı (soğuk yol), tüm gelen verileri ham biçiminde depolar ve veriler üzerinde toplu işlem gerçekleştirir. Bu işlemin sonucu toplu iş görünümü olarak depolanır.
Hız katmanı (anlık yol), verileri gerçek zamanlı olarak analiz eder. Bu katman, doğruluktan ödün vererek düşük gecikme için tasarlanmıştır.
Toplu iş katmanı, verimli sorgulama için toplu iş görünümünü dizinleyen bir sunum katmanına akış sağlar. Hızı katman, en son verileri temel alan artımlı güncelleştirmelerle hizmet katmanını güncelleştirir.
Yüksek hızlı yola akan veriler, hız katmanının uyguladığı gecikme süresi gereksinimleri nedeniyle hızlı bir şekilde işlenmelidir. Hızlı işleme, verilerin hemen kullanıma hazır olmasını sağlar, ancak yanlışlığa neden olabilir. Örneğin, çok sayıda sıcaklık algılayıcının telemetri verilerini gönderdiği bir IoT senaryosu düşünün. Hız katmanı, gelen verilerin kayan zaman penceresini işleyebilecek.
Soğuk yola akan veriler aynı düşük gecikme süresi gereksinimlerine tabi değildir. Soğuk yol, büyük veri kümelerinde yüksek doğrulukta hesaplama sağlar ancak uzun sürebilir.
Sonuç olarak, etkin ve durgun yollar analiz istemci uygulamasında birbirine yaklaşır. Müşterinin anlık ancak potansiyel olarak daha az doğru verileri gerçek zamanlı olarak görüntülemesi gerekiyorsa, sonucunu anlık erişim yolundan alır. Aksi takdirde istemci, daha güncel olmayan ancak daha doğru verileri görüntülemek için soğuk yol sonuçlarını seçer. Diğer bir deyişle, etkin yolda görece küçük bir zaman penceresine ait veriler bulunur ve bu zaman penceresinden sonra sonuçlar durgun yoldaki daha doğru verilerle güncelleştirilebilir.
Toplu iş katmanında depolanan ham veriler sabittir. Gelen veriler var olan verilerin sonuna eklenir ve önceki verilerin üzerine yazılmaz. Belirli bir veri kümesinin değerinde yapılan değişiklikler yeni bir zaman damgalı olay kaydı olarak depolanır. Zaman damgalı olay kayıtları, toplanan verilerin geçmişi boyunca herhangi bir noktada yeniden derlemeye olanak tanır. Toplu iş görünümünü özgün ham verilerden yeniden derleme özelliği, sistem geliştikçe yeni görünümlerin oluşturulmasına olanak sağladığından önemlidir.
Lambda mimarisinde makine öğrenmesi
Lambda mimarileri, hem model eğitimi için geçmiş verileri hem de çıkarım için gerçek zamanlı verileri sağlayarak makine öğrenmesi iş yüklerini destekler. Toplu iş katmanı , Azure Machine Learning veya Doku Veri Bilimi iş yüklerini kullanarak kapsamlı geçmiş veri kümeleri üzerinde eğitim sağlar. Hız katmanı, gerçek zamanlı model çıkarımı ve puanlama işlemlerini kolaylaştırır. Çift yaklaşım, modellerin tam geçmiş verilerle eğitilmesine olanak tanırken, aynı zamanda gelen veri akışları üzerinde anında tahminler sunar.
Kappa mimarisi
Lambda mimarisinin dezavantajı karmaşıklığıdır. İşleme mantığı, farklı çerçeveler aracılığıyla soğuk ve sıcak yollar olarak iki farklı yerde görünür. Bu işlem, her iki yol için de yinelenen hesaplama mantığına ve mimarinin karmaşık yönetimine yol açar.
Kappa mimarisi, Lambda mimarisine bir alternatiftir. Lambda mimarisiyle aynı temel hedeflere sahiptir, ancak tüm veriler bir akış işleme sistemi aracılığıyla tek bir yol üzerinden akar.
Lambda mimarisinin toplu iş katmanına benzer şekilde, olay verileri sabittir ve verilerin bir alt kümesi yerine tümü toplanır. Veriler dağıtılmış, hataya dayanıklı bir birleşik günlüğe olay akışı olarak alınır. Bu olaylar sıralanır ve bir olayın mevcut durumu yalnızca eklenen yeni bir olayla değiştirilir. Lambda mimarisinin hız katmanına benzer şekilde, tüm olay işleme işlemleri giriş akışında gerçekleştirilir ve gerçek zamanlı görünüm olarak kalıcı hale getirilir.
Veri kümesinin tamamını yeniden derlemeniz gerekiyorsa (Lambda mimarisinde toplu iş katmanının yaptığı işlemle eşdeğerdir), akışı yeniden yürütebilirsiniz. Bu işlem genellikle hesaplamayı zamanında tamamlamak için paralellik kullanır.
Kappa mimarisinde makine öğrenmesi
Kappa mimarileri, tek bir akış işlem hattı aracılığıyla tüm verileri işleyerek birleşik makine öğrenmesi iş akışlarına olanak tanır. Aynı işleme mantığı hem geçmiş hem de gerçek zamanlı veriler için geçerli olduğundan bu yaklaşım model dağıtımını ve bakımını basitleştirir. Akış verilerini işleyen modeller oluşturmak için Azure Machine Learning veya Doku Veri Bilimi iş yüklerini kullanarak sürekli öğrenme ve gerçek zamanlı uyarlama sağlayabilirsiniz. Mimari, yeni veriler geldikçe modelleri artımlı olarak güncelleştiren çevrimiçi öğrenme algoritmalarını destekler.
Lakehouse mimarisi
Veri gölü, yapılandırılmış verileri (veritabanı tabloları), yarı yapılandırılmış verileri (XML dosyaları) ve yapılandırılmamış verileri (görüntüler ve ses dosyaları) depolayan merkezi bir veri deposudur. Bu veriler ham, özgün biçimindedir ve önceden tanımlanmış şema gerektirmez. Bir veri gölü büyük hacimli verileri işleyebilir, bu nedenle büyük veri işleme ve analiz için uygundur. Veri gölleri, büyük miktarda veriyi depolamak için uygun maliyetli bir yol sağlayan düşük maliyetli depolama çözümleri kullanır.
Veri ambarı, raporlama, analiz ve BI amaçları için yapılandırılmış ve yarı yapılandırılmış verileri depolayan merkezi bir depodur. Veri ambarları, verilerinizin tutarlı ve kapsamlı bir görünümünü sağlayarak bilinçli kararlar almanıza yardımcı olabilir.
Lakehouse mimarisi, veri göllerinin ve veri ambarlarının en iyi öğelerini birleştirir. Desen, hem yapılandırılmış hem de yapılandırılmamış verileri destekleyen ve verimli veri yönetimi ve analiz olanağı sağlayan birleşik bir platform sağlamayı amaçlar. Bu sistemler genellikle hem ham hem de işlenmiş verileri depolamak için Parquet veya İyileştirilmiş Satır Sütunu gibi açık biçimlerde düşük maliyetli bulut depolama kullanır.
Göl evi mimarisi için yaygın kullanım örnekleri şunlardır:
- Birleşik analiz: Hem geçmiş hem de gerçek zamanlı veri analizi için tek bir platforma ihtiyaç duyan kuruluşlar için idealdir
- Veri idaresi: Büyük veri kümelerinde uyumluluk ve veri kalitesi sağlar
Lakehouse mimarisinde makine öğrenmesi
Lakehouse mimarileri, hem yapılandırılmış hem de yapılandırılmamış verilere birleşik erişim sağlayarak uçtan uca makine öğrenmesi iş akışlarını destekleme konusunda mükemmeldir. Veri bilimciler karmaşık veri taşımadan keşif analizi, özellik mühendisliği ve model eğitimi için ham verilere erişmek için Doku Veri Bilimi iş yüklerini kullanabilir. Mimari, Azure Machine Learning veya Doku not defterlerini kullanarak veri hazırlama ve model geliştirmeden model dağıtımı ve izlemeye kadar tüm makine öğrenmesi yaşam döngüsünü destekler. Birleşik depolama katmanı, veri kökenini ve idareyi korurken veri mühendisleriyle veri bilimciler arasında verimli işbirliği sağlar.
Nesnelerin İnterneti
IoT, İnternet'e bağlanan ve veri gönderen veya alan tüm cihazları temsil eder. IoT cihazları bilgisayarlar, cep telefonları, akıllı saatler, akıllı termostatlar, akıllı buzdolabı, bağlı otomobiller ve kalp izleme implantlarıdır.
Bağlı cihazların sayısı her gün artar ve oluşturdukları veri miktarı da artar. Bu veriler genellikle önemli kısıtlamalara ve bazen de yüksek gecikme süresine sahip ortamlarda toplanır. Diğer durumlarda, binlerce veya milyonlarca cihaz, hızlı alım ve işleme gerektiren düşük gecikme süreli ortamlardan veri gönderir. Bu kısıtlamaları ve benzersiz gereksinimleri düzgün bir şekilde işlemeyi planlamanız gerekir.
Olay denetimli mimariler, IoT çözümlerinin merkezidir. Aşağıdaki diyagramda IoT için mantıksal mimari gösterilmektedir. Diyagram, mimarinin olay akışı bileşenlerini vurgular.
Bulut ağ geçidi, güvenilir, düşük gecikme süreli bir mesajlaşma sistemi aracılığıyla bulut sınırındaki cihaz olaylarını alır.
Cihazlar olayları doğrudan bulut ağ geçidine veya bir alan ağ geçidi üzerinden gönderebilir. Alan ağ geçidi genellikle cihazlarla aynı konumda olan ve olayları alıp bulut ağ geçidine ileten özel bir cihaz veya yazılımdır. Alan ağ geçidi filtreleme, toplama veya protokol dönüştürme işlevlerini gerçekleştirmeyi içeren ham cihaz olaylarını da ön işlenebilir.
Veri alımından sonra olaylar, verileri depolama gibi hedeflere yönlendirebilen veya analiz ve diğer işlemleri gerçekleştirebilen bir veya daha fazla akış işlemcisi üzerinden geçer.
Yaygın işleme türleri şunlardır:
Arşivleme veya toplu analiz için soğuk depolamaya olay verileri yazma.
Kritik yol analizi. Anomalileri algılamak, sıralı zaman pencerelerindeki desenleri tanımak veya akışta belirli bir koşul oluştuğunda uyarıları tetiklemek için olay akışını neredeyse gerçek zamanlı olarak analiz edin.
Cihazlardan alınan, bildirim ve alarm gibi telemetri dışı özel ileti türlerini işleme.
Tahmine dayalı bakım, anomali algılama ve akıllı karar alma için makine öğrenmesi.
Önceki diyagramda gri kutular, bir IoT sisteminin olay akışıyla doğrudan ilişkili olmayan bileşenleridir. Bunlar tamlık için diyagrama eklenir.
Cihaz kayıt defteri, cihaz kimlikleri ve genellikle konum gibi cihaz meta verileri dahil olmak üzere sağlanan cihazların veritabanıdır.
Sağlama API'si, yeni cihazların sağlanmasına ve kaydedilmesine yönelik yaygın bir dış arabirimdir.
Bazı IoT çözümleri , komut ve denetim iletilerinin cihazlara gönderilmesine izin verir.
IoT mimarisinde makine öğrenmesi
IoT mimarileri, akıllı uç bilgi işlem ve bulut tabanlı analiz için makine öğrenmesini kullanır. Edge cihazları gerçek zamanlı karar alma için basit modeller çalıştırabilirken, kapsamlı modeller Azure Machine Learning veya Doku Veri Bilimi iş yüklerini kullanarak bulutta toplanan verileri işler. Yaygın uygulamalar tahmine dayalı bakım, anomali algılama ve otomatik yanıt sistemleridir. Mimari hem anlık içgörüler için akış analizini hem de geçmiş IoT verilerini kullanarak model eğitimi ve iyileştirmesi için toplu işlemeyi destekler.
Sonraki Adımlar
- IoT Hub
- Azure Veri Gezgini
- Microsoft Fabric karar kılavuzu: Veri deposu oluşturma
- Azure Databricks
- Azure Machine Learning
- Fabric Veri Bilimi