Azure Databricks ile modern analiz mimarisi

Azure Data Factory
Azure Data Lake Storage
Azure Databricks
Azure Synapse Analytics
Power BI

Çözüm fikirleri

Bu makale bir çözüm fikridir. İçeriği olası kullanım örnekleri, alternatif hizmetler, uygulama konuları veya fiyatlandırma yönergeleri gibi daha fazla bilgiyle genişletmemizi isterseniz GitHub geri bildirimi sağlayarak bize bildirin.

Bu çözüm, modern bir veri mimarisini özetler. Azure Databricks çözümün temelini oluşturur. Bu platform Azure Data Lake Storage 2. Nesil, Azure Data Factory, Azure Synapse Analytics ve Power BI gibi diğer hizmetlerle sorunsuz çalışır.

Apache® ve Apache Spark™, Apache Software Foundation'ın Birleşik Devletler ve/veya diğer ülkelerdeki kayıtlı ticari markaları veya ticari markalarıdır. Bu işaretlerin kullanılması Apache Software Foundation tarafından onaylanmamaktadır.

Mimari

Architecture diagram showing how a modern data architecture collects, processes, analyzes, and visualizes data.

Bu mimarinin bir Visio dosyasını indirin.

Veri akışı

  1. Azure Databricks, Azure Event Hubs'dan ham akış verilerini alır.

  2. Data Factory ham toplu iş verilerini Data Lake Storage 2. Nesil yükler.

  3. Veri depolama için:

    • Data Lake Storage 2. Nesil yapılandırılmış, yapılandırılmamış ve yarı yapılandırılmış gibi tüm türlerdeki verileri barındırabilir. Ayrıca toplu iş ve akış verilerini de depolar.

    • Delta Lake, veri gölünün seçilmiş katmanını oluşturur. Geliştirilmiş verileri açık kaynak biçiminde depolar.

    • Azure Databricks, verileri katmanlar halinde düzenleyen bir madalyon mimarisiyle iyi çalışır:

      • Bronz: Ham verileri tutar.
      • Gümüş: Temizlenmiş, filtrelenmiş verileri içerir.
      • Altın: İş analizi için yararlı olan toplu verileri depolar.
  4. Analiz platformu, farklı toplu iş ve akış kaynaklarından veri alır. Veri bilimciler bu verileri şu görevler için kullanır:

    • Veri hazırlama.
    • Veri keşfi.
    • Model hazırlığı.
    • Model eğitimi.

    MLflow, veri bilimi kod çalıştırmalarında parametre, ölçüm ve model izlemeyi yönetir. Kodlama olanakları esnektir:

    • Kod SQL, Python, R ve Scala'da olabilir.
    • Kod, önceden yüklenmiş ve iyileştirilmiş Koalas, Pandas ve scikit-learn gibi popüler açık kaynak kitaplıkları ve çerçeveleri kullanabilir.
    • Uygulayıcılar tek düğümlü ve çok düğümlü işlem seçenekleriyle performans ve maliyet için iyileştirme yapabilir.
  5. Makine öğrenmesi modelleri çeşitli biçimlerde kullanılabilir:

    • Azure Databricks, modeller hakkındaki bilgileri MLflow Model Kayıt Defteri'nde depolar. Kayıt defteri modelleri toplu iş, akış ve REST API'leri aracılığıyla kullanılabilir hale getirir.
    • Çözüm ayrıca modelleri Azure Machine Learning web hizmetlerine veya Azure Kubernetes Service'e (AKS) dağıtabilir.
  6. Verilerle çalışan hizmetler, tutarlılık sağlamak için tek bir temel veri kaynağına bağlanır. Örneğin, kullanıcılar Azure Databricks SQL Analytics ile veri gölünde SQL sorguları çalıştırabilir. Bu hizmet:

    • Bir sorgu düzenleyicisi ve kataloğu, sorgu geçmişi, temel pano oluşturma ve uyarı sağlar.
    • Satır düzeyi ve sütun düzeyi izinleri içeren tümleşik güvenlik kullanır.
    • Performansı hızlandırmak için Foton destekli delta motorunu kullanır.
  7. Power BI, birleştirilmiş veri platformundan analitik ve geçmişe dönük raporlar ve panolar oluşturur. Bu hizmet, Azure Databricks ile çalışırken şu özellikleri kullanır:

  8. Kullanıcılar, iyileştirilmiş Synapse bağlayıcısı aracılığıyla veri gölündeki altın veri kümelerini Azure Synapse'e aktarabilir. Azure Synapse'teki SQL havuzları bir veri ambarı ve işlem ortamı sağlar.

  9. Çözüm işbirliği, performans, güvenilirlik, idare ve güvenlik için Azure hizmetlerini kullanır:

    • Microsoft Purview, veri varlığı genelinde veri bulma hizmetleri, hassas veri sınıflandırması ve idare içgörüleri sağlar.

    • Azure DevOps sürekli tümleştirme ve sürekli dağıtım (CI/CD) ve diğer tümleşik sürüm denetimi özellikleri sunar.

    • Azure Key Vault gizli dizileri, anahtarları ve sertifikaları güvenli bir şekilde yönetir.

    • Microsoft Entra ID, Azure Databricks kullanıcıları için çoklu oturum açma (SSO) sağlar. Azure Databricks, şu görevler için Microsoft Entra Id ile otomatik kullanıcı sağlamayı destekler:

      • Yeni kullanıcılar oluşturma.
      • Her kullanıcıya bir erişim düzeyi atama.
      • Kullanıcıları kaldırma ve erişimi reddetme.
    • Azure İzleyici, Azure kaynak telemetri verilerini toplar ve analiz eder. Bu hizmet, sorunları proaktif olarak belirleyerek performansı ve güvenilirliği en üst düzeye çıkarır.

    • Azure Maliyet Yönetimi ve Faturalama, Azure iş yükleri için finansal idare hizmetleri sağlar.

Components

Çözüm aşağıdaki bileşenleri kullanır.

Temel bileşenler

  • Azure Databricks bir veri analizi platformudur. Tam olarak yönetilen Spark kümeleri, birden çok kaynaktan büyük veri akışlarını işler. Azure Databricks, yapısız veri kümelerini temizler ve dönüştürür. İşlenen verileri işletimsel veritabanlarından veya veri ambarlarından alınan yapılandırılmış verilerle birleştirir. Azure Databricks ayrıca ölçeklenebilir makine öğrenmesi ve derin öğrenme modelleri eğitip dağıtır.

  • Event Hubs büyük bir veri akışı platformudur. Hizmet olarak platform (PaaS) olarak bu olay alma hizmeti tam olarak yönetilir.

  • Data Factory bir karma veri tümleştirme hizmetidir. Veri dönüştürme iş akışları oluşturmak, zamanlamak ve yönetmek için bu tam olarak yönetilen, sunucusuz çözümü kullanabilirsiniz.

  • Data Lake Storage 2. Nesil, yüksek performanslı analiz iş yükleri için ölçeklenebilir ve güvenli bir veri gölüdür. Bu hizmet, yüzlerce gigabit aktarım hızı sağlarken birden çok petabayt bilgiyi yönetebilir. Veriler yapılandırılmış, yarı yapılandırılmış veya yapılandırılmamış olabilir. Genellikle günlükler, dosyalar ve medya gibi birden çok heterojen kaynaktan gelir.

  • Azure Databricks SQL Analytics , veri göllerinde sorgular çalıştırır. Bu hizmet ayrıca panolardaki verileri görselleştirir.

  • Machine Learning , tahmine dayalı analiz çözümleri oluşturmanıza, dağıtmanıza ve yönetmenize yardımcı olan bulut tabanlı bir ortamdır. Bu modellerle davranışları, sonuçları ve eğilimleri tahmin edebilirsiniz.

  • AKS yüksek oranda kullanılabilir, güvenli ve tam olarak yönetilen bir Kubernetes hizmetidir. AKS, kapsayıcılı uygulamaları dağıtmayı ve yönetmeyi kolaylaştırır.

  • Azure Synapse , veri ambarları ve büyük veri sistemleri için bir analiz hizmetidir. Bu hizmet Power BI, Machine Learning ve diğer Azure hizmetleriyle tümleştirilir.

  • Azure Synapse bağlayıcıları , Azure Databricks'ten Azure Synapse'e erişmek için bir yol sağlar. Bu bağlayıcılar, Azure Databricks kümeleri ile Azure Synapse örnekleri arasında büyük hacimli verileri verimli bir şekilde aktarır.

  • SQL havuzları , Azure Synapse'te bir veri ambarı ve işlem ortamı sağlar. Havuzlar Azure Depolama ve Data Lake Storage 2. Nesil ile uyumludur.

  • Delta Lake , açık dosya biçimi kullanan bir depolama katmanıdır. Bu katman, Data Lake Storage 2. Nesil gibi bulut depolama alanı üzerinde çalışır. Delta Lake verileri güncelleştirmek, silmek ve birleştirmek için veri sürümü oluşturma, geri alma ve işlemleri destekler.

  • MLflow , makine öğrenmesi yaşam döngüsü için açık kaynak bir platformdur. Bileşenleri, eğitim ve çalıştırma sırasında makine öğrenmesi modellerini izler. MLflow ayrıca modelleri depolar ve üretim ortamında yükler.

Raporlama ve idare bileşenleri

  • Power BI , yazılım hizmetleri ve uygulamalarından oluşan bir koleksiyondur. Bu hizmetler, ilişkili olmayan veri kaynaklarını bağlayan ve görselleştiren raporlar oluşturur ve paylaşır. Power BI, Azure Databricks ile birlikte kök neden belirleme ve ham veri analizi sağlayabilir.

  • Microsoft Purview şirket içi, çoklu bulut ve hizmet olarak yazılım (SaaS) verilerini yönetir. Bu idare hizmeti, veri yatay haritalarını korur. Özellikler arasında otomatik veri bulma, hassas veri sınıflandırması ve veri kökeni yer alır.

  • Azure DevOps bir DevOps düzenleme platformudur. Bu SaaS, uygulamalar oluşturmak, dağıtmak ve uygulamalar üzerinde işbirliği yapmak için araçlar ve ortamlar sağlar.

  • Azure Key Vault belirteçler, parolalar ve API anahtarları gibi gizli dizilere erişimi depolar ve denetler. Key Vault ayrıca şifreleme anahtarlarını oluşturur ve denetler ve güvenlik sertifikalarını yönetir.

  • Microsoft Entra ID , bulut tabanlı kimlik ve erişim yönetimi hizmetleri sunar. Bu özellikler kullanıcıların oturum açması ve kaynaklara erişmesi için bir yol sağlar.

  • Azure İzleyici , ortamlar ve Azure kaynaklarıyla ilgili verileri toplar ve analiz eder. Bu veriler, performans ölçümleri ve etkinlik günlükleri gibi uygulama telemetrisini içerir.

  • Azure Maliyet Yönetimi ve Faturalama , bulut harcamalarını yönetir. Bu hizmet, bütçeleri ve önerileri kullanarak giderleri düzenler ve maliyetleri nasıl azaltacaklarını gösterir.

Senaryo ayrıntıları

Modern veri mimarileri şu ölçütleri karşılar:

  • Verileri, analizleri ve yapay zeka iş yüklerini birleştirin.
  • Her ölçekte verimli ve güvenilir bir şekilde çalıştırın.
  • Analiz panoları, operasyonel raporlar veya gelişmiş analizler aracılığıyla içgörüler sağlayın.

Bu çözüm, bu hedeflere ulaşan modern bir veri mimarisini özetler. Azure Databricks çözümün temelini oluşturur. Bu platform diğer hizmetlerle sorunsuz çalışır. Bu hizmetler birlikte şu niteliklere sahip bir çözüm sağlar:

  • Basit: Birleşik analiz, veri bilimi ve makine öğrenmesi veri mimarisini basitleştirir.
  • Açık: Çözüm açık kaynak kodunu, açık standartları ve açık çerçeveleri destekler. Ayrıca popüler tümleşik geliştirme ortamları (IDE' ler), kitaplıklar ve programlama dilleri ile de çalışır. Yerel bağlayıcılar ve API'ler aracılığıyla çözüm, çok çeşitli diğer hizmetlerle de çalışır.
  • İşbirliğine dayalı: Veri mühendisleri, veri bilimcileri ve analistler bu çözümle birlikte çalışır. Ortak temel alınan verilere erişmek ve bunları analiz etmek için işbirliğine dayalı not defterleri, IDE'ler, panolar ve diğer araçları kullanabilirler.

Olası kullanım örnekleri

Swiss Re Group'un Property & Casualty Reasurance bölümü için oluşturduğu sistem bu çözüme ilham verdi. Sigorta sektörünün yanı sıra, büyük verilerle veya makine öğrenmesiyle çalışan her alan da bu çözümden yararlanabilir. Örnekler şunları içerir:

  • Enerji sektörü
  • Perakende ve e-ticaret
  • Bankacılık ve finans
  • tıp ve sağlık hizmetleri

Sonraki adımlar

İlgili çözümler hakkında bilgi edinmek için şu bilgilere bakın: