Büyük veri mimarisi stili

Azure Data Lake Analytics

Azure IoT

Büyük veri mimarisi, geleneksel veritabanı sistemleri için çok büyük veya karmaşık olan verilerin alımını, işlenmesini ve analizini işlemek için tasarlanmıştır.

Büyük veri mimarisi stili mantıksal diyagramı

Büyük veri çözümleri genellikle aşağıdaki iş yükü türlerinden birini veya daha fazlasını içerir:

Bekleyen büyük veri kaynaklarını toplu işleme.
Hareket halindeki büyük verilerin gerçek zamanlı işlenmesi.
Büyük verilerin etkileşimli keşfi.
Tahmine dayalı analiz ve makine öğrenmesi.

Büyük veri mimarilerinin çoğu aşağıdaki bileşenlerin bazılarını veya tümünü içerir:

Veri kaynakları: Tüm büyük veri çözümleri bir veya daha fazla veri kaynağıyla başlar. Örnekler:
- İlişkisel veritabanları gibi uygulama veri depoları.
- Web sunucusu günlük dosyaları gibi uygulamalar tarafından üretilen statik dosyalar.
- IoT cihazları gibi gerçek zamanlı veri kaynakları.
Veri depolama: Toplu işleme işlemleri için veriler genellikle çeşitli biçimlerde yüksek hacimli büyük dosyaları barındırabilen dağıtılmış bir dosya deposunda depolanır. Bu tür depolar genellikleveri gölü olarak adlandırılır. Bu depolamayı uygulama seçenekleri arasında Azure Data Lake Store veya Azure Depolama'daki blob kapsayıcıları bulunur.
batch işleme: Veri kümeleri çok büyük olduğundan, büyük bir veri çözümünün verileri filtrelemek, toplamak ve başka şekilde analize hazırlamak için uzun süre çalışan toplu işleri kullanarak veri dosyalarını işlemesi gerekir. Bu işler genellikle kaynak dosyaları okumayı, bunları işlemeyi ve çıkışı yeni dosyalara yazmayı içerir. Seçenekler arasında Microsoft Fabric'te veri akışlarını, veri işlem hatlarını kullanma yer alır.
Gerçek zamanlı ileti alımı: Çözüm gerçek zamanlı kaynaklar içeriyorsa, mimarinin akış işleme için gerçek zamanlı iletileri yakalamanın ve depolamanın bir yolunu içermesi gerekir. Bu, gelen iletilerin işlenmek üzere bir klasöre bırakıldığı basit bir veri deposu olabilir. Ancak, birçok çözümün iletiler için arabellek görevi görmesi ve ölçeği genişletme, güvenilir teslim ve diğer ileti kuyruğa alma semantiğini desteklemesi için bir ileti alma deposu gerekir. Seçenekler arasında Azure Event Hubs, Azure IoT Hubs ve Kafka bulunur.
Stream işleme: Gerçek zamanlı iletileri yakaladıktan sonra çözümün verileri filtreleyerek, toplayarak ve başka şekilde analiz için hazırlayarak işlemesi gerekir. İşlenen akış verileri daha sonra bir çıkış havuzuna yazılır. Azure Stream Analytics, ilişkisiz akışlarda çalışan ve kalıcı olarak çalışan SQL sorgularını temel alan bir yönetilen akış işleme hizmeti sağlar. Bir diğer seçenek de, veriler alınırken KQL sorguları çalıştırmanıza olanak tanıyan Microsoft Fabric'te Gerçek Zamanlı Zeka kullanmaktır.
Analitik veri deposu: Birçok büyük veri çözümü verileri analiz için hazırlar ve ardından işlenen verileri analiz araçları kullanılarak sorgulanabilecek yapılandırılmış bir biçimde sunar. Bu sorgulara hizmet vermek için kullanılan analiz veri deposu, geleneksel iş zekası (BI) çözümlerinin çoğunda görüldüğü gibi Kimball stili ilişkisel veri ambarı veya madalyon mimarisine (Bronz, Gümüş ve Altın) sahip bir göl evi olabilir. Azure Synapse Analytics, büyük ölçekli, bulut tabanlı veri ambarı için yönetilen bir hizmet sağlar. Alternatif olarak, Microsoft Fabric size sırasıyla SQL ve Spark kullanılarak sorgulanabilen ambar ve lakehouse seçenekleri sunar.
Çözümleme ve raporlama: Büyük veri çözümlerinin çoğunun hedefi, analiz ve raporlama yoluyla verilere ilişkin içgörüler sağlamaktır. Kullanıcıların verileri analiz etmelerini sağlamak için mimari, Azure Analysis Services'te çok boyutlu OLAP küpü veya tablosal veri modeli gibi bir veri modelleme katmanı içerebilir. Ayrıca, Microsoft Power BI veya Microsoft Excel'deki modelleme ve görselleştirme teknolojilerini kullanarak self servis BI'ı da destekleyebilirsiniz. Analiz ve raporlama, veri bilimcileri veya veri analistleri tarafından etkileşimli veri keşfi biçiminde de olabilir. Bu senaryolar için Microsoft Fabric, kullanıcının SQL'i veya tercih ettiği bir programlama dilini seçebileceği not defterleri gibi araçlar sağlar.
Orchestration: Büyük veri çözümlerinin çoğu, kaynak verileri dönüştüren, verileri birden çok kaynak ve havuz arasında taşıyabilen, işlenen verileri analiz veri deposuna yükleyen veya sonuçları doğrudan bir rapora veya panoya gönderen iş akışlarında kapsüllenmiş yinelenen veri işleme işlemlerinden oluşur. Bu iş akışlarını otomatikleştirmek için Azure Data Factory veya Microsoft Fabric işlem hatları gibi bir düzenleme teknolojisi kullanabilirsiniz.

Azure, büyük veri mimarisinde kullanılabilecek birçok hizmet içerir. Kabaca iki kategoriye ayrılır:

Microsoft Fabric, Azure Data Lake Store, Azure Synapse Analytics, Azure Stream Analytics, Azure Event Hubs, Azure IoT Hub ve Azure Data Factory gibi yönetilen hizmetler.
HDFS, HBase, Hive, Spark ve Kafka gibi Apache Hadoop platformunu temel alan açık kaynak teknolojiler. Bu teknolojiler Azure'da Azure HDInsight hizmetinde kullanılabilir.

Bu seçenekler birbirini dışlamaz ve birçok çözüm açık kaynak teknolojilerini Azure hizmetleriyle birleştirir.

Bu mimari ne zaman kullanılır?

Aşağıdakilere ihtiyacınız olduğunda bu mimari stilini göz önünde bulundurun:

Verileri geleneksel bir veritabanı için çok büyük birimlerde depolayın ve işleyin.
Yapılandırılmamış verileri analiz ve raporlama için dönüştürün.
İlişkisiz veri akışlarını gerçek zamanlı olarak veya düşük gecikme süresiyle yakalayın, işleyin ve analiz edin.
Azure Machine Learning veya Azure AI hizmetlerini kullanın.

Fayda -ları

Teknoloji seçenekleri. Mevcut becerilerden veya teknoloji yatırımlarından yararlanmak için HDInsight kümelerindeki Azure yönetilen hizmetleri ve Apache teknolojilerini karıştırabilir ve eşleştirebilirsiniz.
paralellik aracılığıyla performans . Büyük veri çözümleri paralellikten yararlanarak büyük hacimli verilere ölçeklendirilen yüksek performanslı çözümler sağlar.
elastik ölçek. Büyük veri mimarisindeki tüm bileşenler ölçeği genişletmeyi destekler; böylece çözümünüzü küçük veya büyük iş yüklerine göre ayarlayabilir ve yalnızca kullandığınız kaynaklar için ödeme yapabilirsiniz.
mevcut çözümlerle birlikte çalışabilirliği . Büyük veri mimarisinin bileşenleri IoT işleme ve kurumsal BI çözümleri için de kullanılır ve veri iş yükleri arasında tümleşik bir çözüm oluşturmanıza olanak tanır.

Zorluklar

Karmaşıklık. Büyük veri çözümleri, birden çok veri kaynağından veri alımını işlemek için çok sayıda bileşenle son derece karmaşık olabilir. Büyük veri işlemlerini oluşturmak, test etmek ve sorunlarını gidermek zor olabilir. Ayrıca, performansı iyileştirmek için kullanılması gereken birden çok sistemde çok sayıda yapılandırma ayarı olabilir.
Beceri seti. Birçok büyük veri teknolojisi son derece özelleştirilmiştir ve daha genel uygulama mimarilerinde tipik olmayan çerçeveler ve diller kullanır. Öte yandan, büyük veri teknolojileri daha yerleşik diller üzerine kurulu yeni API'ler geliştirmektedir.
Teknoloji olgunluğu. Büyük verilerde kullanılan teknolojilerin çoğu gelişmektedir. Hive ve spark gibi temel Hadoop teknolojileri kararlı hale getirilse de delta veya buzdağı gibi gelişen teknolojiler kapsamlı değişiklikler ve geliştirmeler içeriyor. Microsoft Fabric gibi yönetilen hizmetler, diğer Azure hizmetlerine kıyasla nispeten gençtir ve zaman içinde büyük olasılıkla gelişecektir.
Güvenlik. Büyük veri çözümleri genellikle tüm statik verileri merkezi bir veri gölünde depolamaya dayanır. Bu verilere erişimin güvenliğini sağlamak, özellikle de verilerin birden çok uygulama ve platform tarafından alınması ve tüketilmesi gerektiğinde zor olabilir.

En iyi yöntemler

paralelliktenyararlanın. Büyük veri işleme teknolojilerinin çoğu iş yükünü birden çok işleme birimine dağıtır. Bu, statik veri dosyalarının oluşturulmasını ve bölünebilir biçimde depolanmasını gerektirir. HDFS gibi dağıtılmış dosya sistemleri okuma ve yazma performansını iyileştirebilir ve gerçek işlem birden çok küme düğümü tarafından paralel olarak gerçekleştirilir ve bu da genel iş sürelerini azaltır. Parquet gibi bölünebilir veri biçiminin kullanılması kesinlikle önerilir.
Bölüm verileri. Toplu işlem genellikle yinelenen bir zamanlamaya göre (örneğin, haftalık veya aylık) gerçekleşir. veri dosyalarını ve tablolar gibi veri yapılarını, işleme zamanlaması ile eşleşen zamana bağlı dönemlere göre bölümleme. Bu, veri alımını ve iş zamanlamasını basitleştirir ve hataları gidermeyi kolaylaştırır. Ayrıca Hive, Spark veya SQL sorgularında kullanılan tabloları bölümleme, sorgu performansını önemli ölçüde artırabilir.
üzerinde şema okuma semantiği uygulama. Veri gölü kullanmak, yapılandırılmış, yarı yapılandırılmış veya yapılandırılmamış dosyalar için depolamayı birden çok biçimde birleştirmenizi sağlar. Veriler depolandığında değil, işlerken verilere şema yansıtan semantiği şemayı kullanın. Bu, çözümde esneklik sağlar ve veri doğrulama ve tür denetiminden kaynaklanan veri alımı sırasında oluşan performans sorunlarını önler.
Verileri yerinde işleyin. Geleneksel BI çözümleri genellikle verileri bir veri ambarı içine taşımak için ayıklama, dönüştürme ve yükleme (ETL) işlemi kullanır. Büyük hacimli veriler ve daha çeşitli biçimlerle büyük veri çözümleri genellikle dönüştürme, ayıklama ve yükleme (TEL) gibi ETL çeşitlemelerini kullanır. Bu yaklaşımla veriler dağıtılmış veri deposu içinde işlenir ve dönüştürülen veriler analiz veri deposuna taşınmadan önce gerekli yapıya dönüştürülür.
Bakiye kullanımı ve zaman maliyetleri. Toplu işleme işleri için iki faktörü göz önünde bulundurmak önemlidir: İşlem düğümlerinin birim başına maliyeti ve işi tamamlamak için bu düğümleri kullanmanın dakika başına maliyeti. Örneğin, bir toplu iş dört küme düğümüyle sekiz saat sürebilir. Ancak, işin dört düğümün tümünü yalnızca ilk iki saat içinde kullandığı ve bundan sonra yalnızca iki düğümün gerekli olduğu ortaya çıkabilir. Bu durumda, işin tamamının iki düğümde çalıştırılması toplam iş süresini artırır, ancak iki katına çıkarılmaz, bu nedenle toplam maliyet daha az olur. Bazı iş senaryolarında, az kullanılan küme kaynaklarını kullanmanın daha yüksek maliyetine daha uzun bir işlem süresi tercih edilebilir.
Kaynaklarıayırın. Mümkün olduğunda, bir iş yükü gibi senaryoların diğer tüm kaynakları beklerken kullanmasını önlemek için kaynakları iş yüklerine göre ayırmayı hedefleyin.
veri alımını düzenleme. Bazı durumlarda, mevcut iş uygulamaları toplu işlem için veri dosyalarını doğrudan Azure depolama blob kapsayıcılarına yazabilir ve burada Microsoft Fabric gibi aşağı akış hizmetleri tarafından kullanılabilir. Ancak genellikle şirket içi veya dış veri kaynaklarından veri gölüne veri alımını düzenlemeniz gerekir. Bunu tahmin edilebilir ve merkezi olarak yönetilebilir bir şekilde başarmak için Azure Data Factory veya Microsoft Fabric tarafından desteklenenler gibi bir düzenleme iş akışı veya işlem hattı kullanın.
hassas verilerierken . Veri alımı iş akışının veri gölünde depolanmasını önlemek için hassas verileri işlemin erken aşamalarında temizlemesi gerekir.

IoT mimarisi

Nesnelerin İnterneti (IoT), büyük veri çözümlerinin özel bir alt kümesidir. Aşağıdaki diyagramda IoT için olası bir mantıksal mimari gösterilmektedir. Diyagram, mimarinin olay akışı bileşenlerini vurgular.

IoT mimarisi Diyagramı

bulut ağ geçidi, güvenilir ve düşük gecikme süreli bir mesajlaşma sistemi kullanarak cihaz olaylarını bulut sınırından alır.

Cihazlar olayları doğrudan bulut ağ geçidine veya alan ağ geçidiaracılığıyla gönderebilir. Alan ağ geçidi, genellikle cihazlarla birlikte bulunan ve olayları alan ve bunları bulut ağ geçidine ileden özel bir cihaz veya yazılımdır. Alan ağ geçidi ayrıca ham cihaz olaylarını önceden işleyerek filtreleme, toplama veya protokol dönüştürme gibi işlevleri gerçekleştirebilir.

Veri alımından sonra olaylar, verileri yönlendirebilen (örneğin, depolamaya) veya analiz ve diğer işlemleri gerçekleştirebilen bir veya daha fazla akış işlemcisi geçer.

Aşağıda bazı yaygın işleme türleri yer alır. (Bu liste kesinlikle kapsamlı değildir.)

Arşivleme veya toplu analiz için soğuk depolamaya olay verileri yazma.
Etkin yol analizi, anomalileri algılamak, sıralı zaman pencerelerindeki desenleri tanımak veya akışta belirli bir koşul oluştuğunda uyarıları tetikleme amacıyla olay akışını gerçek zamanlı olarak (yakın) analiz eder.
Cihazlardan gelen bildirimler ve alarmlar gibi özel telemetri dışı iletileri işleme.
Makine öğrenmesi.

Gri gölgeli kutular, bir IoT sisteminin olay akışıyla doğrudan ilgili olmayan, ancak eksiksiz olması için buraya eklenmiş olan bileşenlerini gösterir.

cihaz kayıt defteri, cihaz kimlikleri ve genellikle konum gibi cihaz meta verileri dahil olmak üzere sağlanan cihazların veritabanıdır.
sağlama API'si, yeni cihazları sağlamaya ve kaydetmeye yönelik yaygın bir dış arabirimdir.
Bazı IoT çözümleri, komut ve denetim iletilerinin cihazlara gönderilmesine izin verir.

Bu bölümde IoT'nin çok üst düzey bir görünümü sunulmuştur ve dikkate alınması gereken birçok incelik ve zorluk vardır. Daha fazla ayrıntı için bkz.ioT mimarilerini .

Sonraki adımlar

büyük veri mimarileri hakkında daha fazla bilgi edinin.
IoT mimarileri hakkında daha fazla bilgi edinin.