Azure Databricks kullanarak modern analiz mimarisi oluşturma
Çözüm fikirleri
Bu makalede bir çözüm fikri açıklanmaktadır. Bulut mimarınız bu mimarinin tipik bir uygulaması için ana bileşenleri görselleştirmeye yardımcı olmak için bu kılavuzu kullanabilir. İş yükünüzün özel gereksinimlerine uygun iyi tasarlanmış bir çözüm tasarlamak için bu makaleyi başlangıç noktası olarak kullanın.
Bu çözüm, modern veri mimarilerinin temel ilkelerini ve bileşenlerini özetler. Azure Databricks çözümün temelini oluşturur. Bu platform Azure Data Lake Storage, Microsoft Fabric ve Power BI gibi diğer hizmetlerle sorunsuz çalışır.
Apache® ve Apache Spark™, Apache Software Foundation'ın Birleşik Devletler ve/veya diğer ülkelerdeki kayıtlı ticari markaları veya ticari markalarıdır. Bu işaretlerin kullanılması Apache Software Foundation tarafından onaylanmamaktadır.
Mimari
modern bir veri mimarisinin verileri nasıl topladığını, işlediğini, çözümlediğini ve görselleştirdiğini gösteren
Bu mimarinin bir Visio dosyasını indirin.
Veri akışı
Azure Databricks, Delta Live Tablolarını kullanarak Azure Event Hubs'dan ham akış verilerini alır.
Doku Data Factory ham toplu iş verilerini Data Lake Storage'a yükler.
Veri depolama için:
Data Lake Storage yapılandırılmış, yapılandırılmamış ve kısmen yapılandırılmış veriler dahil olmak üzere tüm veri türlerini barındırabilir. Ayrıca toplu iş ve akış verilerini de depolar.
Delta Lake, veri gölünün seçilmiş katmanını oluşturur. Geliştirilmiş verileri açık kaynak biçiminde depolar.
Azure Databricks, verileri katmanlar halinde düzenleyen bir madalyon mimarisiyle iyi çalışır:
- Bronz katman: Ham verileri tutar.
- Gümüş katmanı: Temizlenmiş, filtrelenmiş verileri içerir.
- Altın katmanı: İş analizi için yararlı olan toplu verileri depolar.
Analiz platformu, farklı toplu iş ve akış kaynaklarından veri alır. Veri bilimciler aşağıdaki gibi görevler için bu verileri kullanır:
- Veri hazırlama.
- Veri keşfi.
- Model hazırlığı.
- Model eğitimi.
MLflow, veri bilimi kod çalıştırmalarında parametre, ölçüm ve model izlemeyi yönetir. Kodlama olanakları esnektir:
- Kod SQL, Python, R ve Scala'da olabilir.
- Kod, önceden yüklenmiş ve iyileştirilmiş Koalas, Pandas ve scikit-learn gibi popüler açık kaynak kitaplıklarını ve çerçevelerini kullanabilir.
- Kullanıcılar tek düğümlü ve birden çok düğümlü işlem seçeneklerini kullanarak performans ve maliyet için iyileştirme yapabilir.
Makine öğrenmesi modelleri aşağıdaki biçimlerde kullanılabilir:
Verilerle çalışan hizmetler, tutarlılık sağlamaya yardımcı olmak için tek bir temel veri kaynağına bağlanır. Örneğin, Azure Databricks SQL ambarlarını kullanarak veri gölünde SQL sorguları çalıştırabilirsiniz. Bu hizmet:
- Bir sorgu düzenleyicisi ve kataloğu, sorgu geçmişi, temel pano oluşturma ve uyarı sağlar.
- Satır düzeyi izinleri ve sütun düzeyi izinleri içeren tümleşik güvenliği kullanır.
- performansını geliştirmek içinFoton destekli Delta Altyapısı kullanır.
Azure Databricks Unity Kataloğu'nun altın renkli veri kümelerini Fabric'e yansıtabilirsiniz. Verileri taşımaya veya çoğaltmaya gerek kalmadan kolayca tümleştirmek için Doku Azure Databricks yansıtmasını kullanın.
Power BI, birleştirilmiş veri platformundan analitik ve geçmişe dönük raporlar ve panolar oluşturur. Bu hizmet, Azure Databricks ile çalışırken aşağıdaki özellikleri kullanır:
- Temel alınan verileri görselleştirmeye yönelik yerleşik bir Azure Databricks bağlayıcısı.
- İyileştirilmiş Java Veritabanı Bağlantısı ve Açık Veritabanı Bağlantısı sürücüleri.
- Daha yüksek performanslı sorgular için Power BI anlam modellerinizi yüklemek için Direct Lake Ile Doku'da Azure Databricks yansıtmasını kullanabilirsiniz.
Çözüm işbirliği, performans, güvenilirlik, idare ve güvenlik için Unity Kataloğu'nu ve Azure hizmetlerini kullanır:
Azure Databricks Unity Kataloğu, Azure Databricks çalışma alanlarında merkezi erişim denetimi, denetim, köken ve veri bulma özellikleri sağlar.
Microsoft Purview, veri varlığı genelinde veri bulma hizmetleri, hassas veri sınıflandırması ve idare içgörüleri sağlar.
Azure DevOps sürekli tümleştirme ve sürekli dağıtım (CI/CD) ve diğer tümleşik sürüm denetimi özellikleri sunar.
Azure Key Vault gizli dizileri, anahtarları ve sertifikaları güvenli bir şekilde yönetmenize yardımcı olur.
Microsoft Entra Id ve System for Cross-domain Identity Management (SCIM) sağlama, Azure Databricks kullanıcıları ve grupları için çoklu oturum açma sağlar. Azure Databricks, Microsoft Entra Id ile aşağıdakiler için otomatik kullanıcı sağlamayı destekler:
- Yeni kullanıcılar ve gruplar oluşturun.
- Her kullanıcıya bir erişim düzeyi atayın.
- Kullanıcıları kaldırın ve erişimi reddedin.
Azure İzleyici, Azure kaynak telemetri verilerini toplar ve analiz eder. Bu hizmet, sorunları proaktif olarak belirleyerek performansı ve güvenilirliği en üst düzeye çıkarır.
Microsoft Maliyet Yönetimi, Azure iş yükleri için finansal idare hizmetleri sağlar.
Bileşenler
Bu çözüm aşağıdaki bileşenleri kullanır.
Temel bileşenler
Azure Databricks, büyük veri akışlarını işlemek için Spark kümelerini kullanan bir veri analizi platformudur. Yapılandırılmamış verileri temizler ve dönüştürür ve yapılandırılmış verilerle birleştirir. Ayrıca makine öğrenmesi modellerini eğitebilir ve dağıtabilir. Bu mimaride Azure Databricks, veri alımı, işlenmesi ve sunulması için merkezi bir araç olarak hizmet vermektedir. Veri yaşam döngüsünün tamamını yönetmek için birleşik bir ortam sağlar.
Azure Databricks SQL ambarları , Azure Databricks'te verileri sorgulamak ve araştırmak için kullanabileceğiniz işlem kaynaklarıdır. Bu mimaride, Power BI'dan verilerinize doğrudan bağlanmak için SQL uç noktalarını kullanabilirsiniz.
Azure Databricks Delta Live Tables, güvenilir, sürdürülebilir ve test edilebilir veri işleme işlem hatları oluşturmaya yönelik bildirim temelli bir çerçevedir. Bu mimaride Delta Live Tables, verileriniz üzerinde gerçekleştirilecek dönüştürmeleri tanımlamanıza yardımcı olur. Ayrıca Azure Databricks içinde görev düzenleme, küme yönetimi, izleme, veri kalitesi ve hata işlemeyi yönetmenize yardımcı olur.
Microsoft Fabric, birleşik çözüme ihtiyaç duyan kuruluşlar için uçtan uca bir analiz ve veri platformudur. Platform, Veri Mühendisliği, Data Factory, Veri Bilimi, Real-Time Intelligence, Veri Ambarı ve Veritabanları gibi hizmetler sağlar. Bu mimari Unity Kataloğu tablolarını Doku'ya yansıtır ve daha iyi performans için Power BI'da Direct Lake kullanır.
Microsoft Fabric 'da Data Factory, Doku'daki zengin bir veri kaynağı kümesinden veri almak, hazırlamak ve dönüştürmek için kullanabileceğiniz modern bir veri tümleştirme platformudur. Bu mimari, Data Lake Storage veya OneLake'e hızlı alım için çeşitli veri kaynaklarına yerleşik bağlayıcılar kullanır. Azure Databricks daha sonra toplu iş verilerini alır ve daha fazla dönüştürür.
Event Hubs, tam olarak yönetilen, büyük veri akış platformudur. Hizmet olarak platform olarak olay alımı özellikleri sağlar. Bu mimaride akış verileri için Event Hubs kullanılır. Azure Databricks, Spark Streaming veya Delta Live Tablolarını kullanarak bu verilere bağlanabilir ve bunları işleyebilir.
Data Lake Storage, yüksek performanslı analiz için ölçeklenebilir ve güvenli bir veri gölüdür. Birden çok petabayt veriyi işler ve yüzlerce gigabit aktarım hızını destekler. Data Lake Storage yapılandırılmış, kısmen yapılandırılmış ve yapılandırılmamış verileri depolayabilir. Bu mimaride hem toplu hem de akış verilerini depolamak için Data Lake Storage kullanılır.
Machine Learning , tahmine dayalı analiz çözümleri oluşturmanıza, dağıtmanıza ve yönetmenize yardımcı olan bulut tabanlı bir ortamdır. Bu modelleri kullanarak davranışları, sonuçları ve eğilimleri tahmin edebilirsiniz. Bu mimaride Machine Learning, Azure Databricks'in eğitim ve çıkarım modelleri için dönüştürdüğü verileri kullanır.
AKS yüksek oranda kullanılabilir, güvenli ve tam olarak yönetilen bir Kubernetes hizmetidir. AKS, kapsayıcılı uygulamaları dağıtmayı ve yönetmeyi kolaylaştırır. Bu mimaride AKS, makine öğrenmesi modellerini ölçeklenebilir çıkarım için kapsayıcılı bir ortamda barındırır.
Delta Lake , açık dosya biçimi kullanan bir depolama katmanıdır. Bu katman Data Lake Storage gibi bulut depolama çözümlerinin üzerinde çalışır. Delta Lake verileri güncelleştirmek, silmek ve birleştirmek için veri sürümü oluşturma, geri alma ve işlemleri destekler. Bu mimaride Delta Lake, Data Lake Storage'dan veri yazmak ve okumak için birincil dosya biçimi olarak çalışır.
MLflow, makine öğrenmesi yaşam döngüsünü yönetmeye yönelik açık kaynak bir platformdur. Bileşenleri, eğitim ve çalışma sırasında makine öğrenmesi modellerini izler. Machine Learning'e benzer şekilde bu mimaride, makine öğrenmesi yaşam döngünüzü yönetmek için Azure Databricks'teki MLflow'ı kullanabilirsiniz. Azure Databricks'te dönüştürdüğünüz Unity Kataloğu verilerini kullanarak modelleri eğitin ve çıkarın.
Raporlama ve idare bileşenleri
Azure Databricks Unity Kataloğu , Azure Databricks çalışma alanlarında merkezi erişim denetimi, denetim, köken ve veri bulma özellikleri sağlar. Bu mimaride Unity Kataloğu, veri erişimini yönetmek ve güvenli bir şekilde kullanmak için Azure Databricks'te birincil araç olarak çalışır.
Power BI , yazılım hizmetleri ve uygulamalarından oluşan bir koleksiyondur. Bu hizmetler, ilişkili olmayan veri kaynaklarını bağlayan ve görselleştiren raporlar oluşturur ve paylaşır. Power BI, Azure Databricks ile birlikte kök neden belirleme ve ham veri analizi sağlayabilir. Bu mimari, Azure Databricks ve Fabric'in işlediği veriler hakkında içgörüler sağlayan panolar ve raporlar oluşturmak için Power BI'ı kullanır.
Microsoft Purview şirket içi, çoklu bulut ve hizmet olarak yazılım (SaaS) verilerini yönetir. Bu idare hizmeti, veri yatay haritalarını korur. Özellikleri arasında otomatik veri bulma, hassas veri sınıflandırması ve veri kökeni yer alır. Bu mimaride Unity Kataloğu, Doku, Power BI ve Data Lake Storage'da alınan verileri taramak ve izlemek için Microsoft Purview kullanılır.
Azure DevOps bir DevOps düzenleme platformudur. Bu SaaS, uygulamalar oluşturmak, dağıtmak ve uygulamalar üzerinde işbirliği yapmak için araçlar ve ortamlar sağlar. Bu mimaride Azure altyapısının dağıtımını otomatikleştirmek için Azure DevOps kullanılır. Ci/CD işlem hatları ile daha iyi işbirliği, değişiklik izleme ve tümleştirme için Azure Databricks kodunun otomasyonu ve sürüm denetimi için GitHub'ı da kullanabilirsiniz.
Key Vault belirteçler, parolalar ve API anahtarları gibi gizli dizilere erişimi depolar ve denetler. Key Vault ayrıca şifreleme anahtarlarını oluşturur ve denetler ve güvenlik sertifikalarını yönetir. Bu mimaride, Data Lake Storage'dan paylaşılan erişim imzası anahtarlarını depolamak için Key Vault kullanılır. Bu anahtarlar daha sonra kimlik doğrulaması için Azure Databricks ve diğer hizmetlerde kullanılır.
Microsoft Entra ID , bulut tabanlı kimlik ve erişim yönetimi hizmetleri sunar. Bu özellikler kullanıcıların oturum açması ve kaynaklara erişmesi için bir yol sağlar. Bu mimari, Azure'da kullanıcıların ve hizmetlerin kimliğini doğrulamak ve yetkilendirmek için Microsoft Entra Id kullanır.
SCIM, Microsoft Entra Id kullanarak Azure Databricks hesabına sağlamayı ayarlamanıza olanak tanır. Bu mimari, Azure Databricks çalışma alanlarına erişen kullanıcıları yönetmek için SCIM kullanır.
Azure İzleyici ortamlardaki ve Azure kaynaklarındaki verileri toplar ve analiz eder. Bu veriler, performans ölçümleri ve etkinlik günlükleri gibi uygulama telemetrisini içerir. Bu mimari, Azure Databricks ve Machine Learning'deki işlem kaynaklarının ve Azure İzleyici'ye günlük gönderen diğer bileşenlerin durumunu izlemek için Azure İzleyici'yi kullanır.
Maliyet Yönetimi, bulut harcamalarını yönetmenize yardımcı olur. Bu hizmet, bütçeleri ve önerileri kullanarak giderleri düzenler ve maliyetleri nasıl azaltabileceğinizi gösterir. Bu mimari, tüm çözümün maliyetini izlemeye ve denetlemeye yardımcı olmak için Maliyet Yönetimi'ni kullanır.
Senaryo ayrıntıları
Modern veri mimarileri:
- Verileri, analizleri ve yapay zeka iş yüklerini birleştirin.
- Her ölçekte verimli ve güvenilir bir şekilde çalıştırın.
- Analiz panoları, operasyonel raporlar veya gelişmiş analizler aracılığıyla içgörüler sağlayın.
Bu çözüm, bu hedeflere ulaşan modern bir veri mimarisini özetler. Azure Databricks çözümün temelini oluşturur. Bu platform diğer hizmetlerle sorunsuz çalışır. Bu hizmetler birlikte şu şekilde bir çözüm sağlar:
- Basit: Birleşik analiz, veri bilimi ve makine öğrenmesi veri mimarisini basitleştirir.
- Açık: Çözüm açık kaynak kodunu, açık standartları ve açık çerçeveleri destekler. Ayrıca popüler tümleşik geliştirme ortamları (IDE' ler), kitaplıklar ve programlama dilleri ile de çalışır. Yerel bağlayıcılar ve API'ler aracılığıyla çözüm, çok çeşitli diğer hizmetlerle de çalışır.
- İşbirliğine dayalı: Veri mühendisleri, veri bilimcileri ve analistler bu çözümle birlikte çalışır. Ortak temel alınan verilere erişmek ve bunları analiz etmek için işbirliğine dayalı not defterleri, IDE'ler, panolar ve diğer araçları kullanabilirler.
Olası kullanım örnekleri
Swiss Re Group'un Property & Casualty Reasurance bölümü için oluşturduğu sistem bu çözüme ilham verdi. Sigorta sektörüne ek olarak, büyük verilerle veya makine öğrenmesiyle çalışan tüm alanlar da bu çözümden yararlanabilir. Örnekler şunları içerir:
- Enerji sektörü.
- Perakende ve e-ticaret.
- Bankacılık ve finans.
- tıp ve sağlık hizmetleri.
Sonraki adımlar
- Azure Databricks'da uçtan uca veri işlem hattı oluşturma
- İlk Delta Live Tables işlem hattınızı çalıştırma
İlgili kaynaklar
İlgili çözümler hakkında bilgi edinmek için aşağıdaki kılavuzlara ve mimarilere bakın.
İlgili mimari kılavuzları
- Microsoft'un makine öğrenmesi ürünlerini karşılaştırma
- Doğal dil işleme teknolojisi seçme
- Akış işleme teknolojisi seçme