Lakehouse referans mimarileri (indir)

Bu makalede lakehouse için veri kaynakları, veri alımı, dönüştürme, sorgulama ve işleme, hizmet verme, analiz ve depolamayı kapsayan mimari rehberlik sağlanmaktadır.

Her başvuru mimarisi 11 x 17 (A3) biçiminde indirilebilir bir PDF'ye sahiptir.

Databricks'teki lakehouse, büyük bir iş ortağı araçları ekosistemiyle entegre olan açık bir platform olmasına rağmen, referans mimarileri yalnızca Azure hizmetlerine ve Databricks lakehouse'a odaklanır. Gösterilen bulut sağlayıcısı hizmetleri, kavramları göstermek için seçilir ve kapsamlı değildir.

Azure Databricks lakehouse için başvuru mimarisi.

İndirme: Azure Databricks lakehouse için başvuru mimarisi

Azure başvuru mimarisi, alma, depolama, sunma ve analiz için aşağıdaki Azure'a özgü hizmetleri gösterir:

  • Lakehouse Federation için kaynak sistemler olarak Azure Synapse ve SQL Server
  • Akış verisi alımı için Azure IoT Hub ve Azure Event Hubs
  • Azure Data Factory ile toplu veri alma
  • Veriler ve yapay zeka varlıkları için nesne depolama alanı olarak Azure Data Lake Storage 2. Nesil (ADLS)
  • İşletimsel veritabanları olarak Azure SQL DB ve Azure Cosmos DB
  • UC'nin şema ve köken bilgilerini dışarı aktardığı kurumsal katalog olarak Azure Purview
  • BI aracı olarak Power BI
  • Azure OpenAI, Model Hizmetinde dış bir LLM olarak kullanılabilir.

Başvuru mimarilerinin organizasyonu

Referans mimarisi, iş akışları boyunca, Kaynak, Alma, Dönüştürme, Sorgu/İşlem, Hizmet, Analiz ve Depolama şeklinde yapılandırılmıştır.

  • Source

    Dış verileri Veri Zekası Platformu ile tümleştirmenin üç yolu vardır:

    • ETL: Platform, yarı yapılandırılmış ve yapılandırılmamış veriler (algılayıcılar, IoT cihazları, medya, dosyalar ve günlükler gibi) ve ilişkisel veritabanlarından veya iş uygulamalarından yapılandırılmış veriler sağlayan sistemlerle tümleştirme sağlar.
    • Lakehouse Federasyonu: İlişkisel veritabanları gibi SQL kaynakları, ETL olmadan lakehouse'a ve Unity Kataloğu'na entegre edilebilir. Bu durumda, kaynak sistem verileri Unity Kataloğu tarafından yönetilir ve sorgular kaynak sisteme gönderilir.
    • Katalog Federasyonu: Hive Meta Veri Deposu katalogları da katalog federasyonu aracılığıyla Unity Kataloğu ile tümleştirilebilir ve Unity Kataloğu'na Hive Meta Veri Deposu'nda depolanan tabloları denetleme olanağı tanır.
  • Ingest

    Toplu işlem veya akış yoluyla verileri lakehouse'a aktarın.

  • Storage

  • Dönüştürme ve Sorgulama /işlem

    • Databricks lakehouse, tüm dönüştürmeler ve sorgular için apache Spark ve Photon altyapılarını kullanır.

    • İşlem hatları güvenilir, sürdürülebilir ve test edilebilir veri işleme işlem hatlarını basitleştirmeye ve iyileştirmeye yönelik bildirim temelli bir çerçevedir.

    • Apache Spark ve Photon tarafından desteklenen Databricks Veri Zekası Platformu her iki iş yükü türünü de destekler: SQL ambarları aracılığıyla SQL sorguları ve çalışma alanı kümeleri aracılığıyla SQL, Python ve Scala iş yükleri.

    • Veri bilimi (ML Modelleme ve Gen AI) için Databricks AI ve Machine Learning platformu, AutoML ve ML işlerini kodlamak için özel ML çalışma zamanları sağlar. Tüm veri bilimi ve MLOps iş akışları en iyi şekilde MLflow tarafından desteklenir.

  • Serving

    • Databricks lakehouse, veri ambarı (DWH) ve BI kullanım örnekleri için Databricks SQL, SQL ambarları tarafından desteklenen veri ambarı ve sunucusuz SQL ambarları sağlar.

    • Makine öğrenmesi için Mozaik AI Model Sunma , Databricks kontrol düzleminde barındırılan ölçeklenebilir, gerçek zamanlı, kurumsal sınıf bir model sunma özelliğidir. Mozaik AI Ağ Geçidi , Databricks'in desteklenen üretken yapay zeka modellerine ve bunların ilişkili model sunum uç noktalarına erişimi yönetmeye ve izlemeye yönelik çözümüdür.

    • İşletimsel veritabanları:

      • Lakebase , Postgres tabanlı ve Databricks Veri Zekası Platformu ile tamamen tümleştirilmiş bir çevrimiçi işlem işleme (OLTP) veritabanıdır. Databricks'te OLTP veritabanları oluşturmanıza ve OLTP iş yüklerini Lakehouse'unuzla tümleştirmenize olanak tanır.
  • Collaboration:

    • İş ortakları , Delta Sharing aracılığıyla ihtiyaç duydukları verilere güvenli erişim elde eder.

    • Delta Paylaşımına dayalı olarak Databricks Market , veri ürünleri alışverişi için açık bir forumdur.

    • Temiz Odalar , birden çok kullanıcının birbirlerinin verilerine doğrudan erişmeden hassas kurumsal veriler üzerinde birlikte çalışabileceği güvenli ve gizliliği koruyan ortamlardır.

  • Analysis

    • Nihai iş uygulamaları bu kulvarda yer alır. Örnekler arasında gerçek zamanlı çıkarım için Mozaik Yapay Zeka Modeli Sunma'ya bağlı yapay zeka uygulamaları gibi özel istemciler veya göl evinden işletimsel veritabanına gönderilen verilere erişen uygulamalar yer alır.

    • BI kullanım örnekleri için analistler genellikle veri ambarlarına erişmek için BI araçlarını kullanır. SQL geliştiricileri ayrıca sorgular ve pano oluşturma için Databricks SQL Düzenleyicisi'ni (diyagramda gösterilmez) kullanabilir.

    • Veri Zekası Platformu ayrıca veri görselleştirmeleri oluşturmak ve içgörüleri paylaşmak için panolar sunar.

  • Integrate

    • OpenAI, LangChain veya HuggingFace gibi dış yapay zeka hizmetleri doğrudan Databricks Intelligence Platform'un içinden kullanılabilir.

    • Dış düzenleyiciler kapsamlı REST API veya apache Airflowgibi dış düzenleme araçlarına ayrılmış bağlayıcıları kullanabilir.

    • Unity Kataloğu, Databricks Intelligence Platform'daki tüm veri ve yapay zeka idaresi için kullanılır ve Lakehouse Federation aracılığıyla diğer veritabanlarını kendi idaresiyle tümleştirebilir.

      Ayrıca Unity Kataloğu, purview gibi diğer kurumsal kataloglarla tümleştirilebilir. Ayrıntılar için kurumsal katalog satıcısına başvurun.

Tüm iş yükleri için ortak özellikler

Ayrıca Databricks lakehouse, tüm iş yüklerini destekleyen yönetim özellikleriyle birlikte gelir:

  • Veri ve yapay zeka idaresi

    Databricks Veri Zekası Platformu'ndaki merkezi veriler ve yapay zeka idare sistemi Unity Kataloğu'dur. Unity Kataloğu, tüm çalışma alanlarında geçerli olan veri erişim ilkelerini yönetmek için tek bir yer sağlar ve tablolar, birimler, özellikler (özellik deposu) ve modeller (model kayıt defteri) gibi göl evinde oluşturulan veya kullanılan tüm varlıkları destekler. Unity Kataloğu, Databricks'te çalıştırılacak sorgular arasında çalışma zamanı veri kökenini yakalamak için de kullanılabilir.

    Databricks Veri Kalitesi İzleme , hesabınızdaki tüm tabloların veri kalitesini izlemenizi sağlar. Tüm tablolarınızdaki anomalileri algılar ve her tablo için tam veri profili sağlar.

    Gözlemlenebilirlik için sistem tabloları , hesabınızın işletimsel verilerinin Databricks tarafından barındırılan bir analiz deposudur. Sistem tabloları, hesabınızdaki geçmiş gözlemlenebilirlik için kullanılabilir.

  • Veri zekası altyapısı

    Databricks Veri Zekası Platformu, kuruluşunuzun tamamının verileri ve yapay zekayı kullanabilmesine olanak tanırken, üretken yapay zekayı bir lakehouse'un birleştirme avantajlarıyla birleştirerek verilerinizin benzersiz semantiğini anlamanıza yardımcı olur. Bkz. Databricks AI yardımcı özellikleri.

    Genie Code , Databricks not defterlerinde, SQL düzenleyicisinde, dosya düzenleyicisinde ve başka bir yerde kullanıcılar için bağlama duyarlı bir yapay zeka yardımcısı olarak kullanılabilir.

  • Otomasyon ve Düzenleme

    Lakeflow İşleri Databricks Veri Zekası Platformu'nda veri işleme, makine öğrenmesi ve analiz işlem hatlarını düzenler. Lakeflow Spark Bildirimli İşlem Hatları , bildirim temelli söz dizimi ile güvenilir ve sürdürülebilir ETL işlem hatları oluşturmanıza olanak sağlar. Platform CI/CD ve MLOps'u da destekler

Azure'da Veri Zekası Platformu için üst düzey kullanım örnekleri

Lakeflow Connect ile SaaS uygulamalarından ve veritabanlarından yerleşik veri alma

Azure Databricks'te LFC kullanarak veri alımı .

İndir: Azure Databricks için Lakeflow Connect başvuru mimarisi.

Databricks Lakeflow Connect , kurumsal uygulamalardan ve veritabanlarından alım için yerleşik bağlayıcılar sunar. Sonuçta elde edilen veri alım hattı, Unity Catalog tarafından yönetilmektedir ve sunucusuz işlem ile Lakeflow Spark Deklaratif İşlem Hatları tarafından desteklenmektedir.

Lakeflow Connect, veri alımını daha hızlı, ölçeklenebilir ve daha uygun maliyetli hale getirmek için verimli artımlı okuma ve yazma işlemlerinden yararlanırken, verileriniz aşağı akış tüketimi için güncel kalır.

Toplu veri alımı ve ETL

Azure Databricks'te toplu ETL için başvuru mimarisi.

İndirme: Azure Databricks için Batch ETL başvuru mimarisi

Alma araçları, kaynaktaki verileri okumak için kaynağa özgü bağdaştırıcıları kullanır ve ardından verileri Auto Loader'ın okuyabileceği bulut depolama alanına depolar veya doğrudan Databricks'i çağırır (örneğin, Databricks lakehouse ile entegre edilmiş iş ortağı alma araçlarıyla). Verileri yüklemek için Databricks ETL ve işleme altyapısı sorguları pipelines aracılığıyla çalıştırır. Lakeflow İşleri'ni kullanarak tek veya çok görevli işleri düzenleme ve Unity Kataloğu'nu (erişim denetimi, denetim, köken vb.) kullanarak bunları yönetme. Düşük gecikmeli işletim sistemleri için belirli altın tablolara erişim sağlamak için, tabloları ETL işlem hattının sonundaki RDBMS veya anahtar-değer deposu gibi bir işletimsel veritabanına aktarın.

Akış ve değişiklik veri yakalama (CDC)

Azure Databricks'te Spark yapılandırılmış akış mimarisi.

İndirme: Azure Databricks için Spark yapılandırılmış akış mimarisi

Databricks ETL altyapısı, Apache Kafka veya Azure Event Hub gibi olay kuyruklarından okumak için Spark Yapılandırılmış Akış kullanır. Aşağı akış adımları, yukarıdaki Batch kullanım örneğinin yaklaşımını izler.

Gerçek zamanlı değişiklik veri yakalama (CDC) genellikle ayıklanan olayları bir olay kuyruğunda depolar. Buradan itibaren, kullanım örneği akış kullanım senaryosunu takip eder.

CDC, toplu olarak yapılırsa ve ayıklanan kayıtlar önce bulut depolamada saklanırsa, Databricks Auto Loader bunları okuyabilir ve bu kullanım durumu Batch ETL sürecini takip eder.

Makine öğrenmesi ve yapay zeka (geleneksel)

Azure Databricks için makine öğrenmesi ve yapay zeka başvuru mimarisi.

İndirme: Azure Databricks için makine öğrenmesi ve yapay zeka başvuru mimarisi

Databricks Veri Zekası Platformu, makine öğrenmesi için en son özelliklere sahip makine ve derin öğrenme kitaplıklarıyla birlikte gelen Mozaik AI sunar. Özellik Deposu ve Model Kayıt Defteri (her ikisi de Unity Kataloğu ile tümleşik), AutoML ile düşük kod özellikleri ve veri bilimi yaşam döngüsüyle MLflow tümleştirmesi gibi özellikler sağlar.

Unity Kataloğu, veri bilimiyle ilgili tüm varlıkları (tablolar, özellikler ve modeller) yönetir ve veri bilimciler işlerini yönetmek için Lakeflow İşleri'ni kullanabilir.

Modelleri ölçeklenebilir ve kurumsal düzeyde dağıtmak için MLOps özelliklerini kullanarak modelleri model sunmada yayımlayın.

AI Aracısı uygulamaları (Gen AI)

Azure Databricks için Gen AI uygulama başvuru mimarisi.

İndirme: Azure Databricks için Gen AI uygulama başvuru mimarisi

Modelleri ölçeklenebilir ve kurumsal düzeyde dağıtmak için MLOps özelliklerini kullanarak modelleri model sunmada yayımlayın.

BI ve SQL analizi

Azure Databricks için BI ve SQL analizi başvuru mimarisi.

İndirme: Azure Databricks için BI ve SQL analizi başvuru mimarisi

İş analistleri, IŞ zekası kullanım örnekleri için panoları, Databricks SQL düzenleyicisini veya Tableau veya Power BI gibi BI araçlarını kullanabilir. Her durumda, altyapı Databricks SQL 'dir (sunucusuz veya sunucusuz değildir) ve Unity Kataloğu veri bulma, araştırma ve erişim denetimi sağlar.

İş Uygulamaları

Azure Databricks için Databricks İş Uygulamaları.

İndirme: Azure Databricks için Business Apps for Databricks

Databricks Uygulamaları , geliştiricilerin güvenli verileri ve yapay zeka uygulamalarını doğrudan Databricks platformunda oluşturup dağıtarak ayrı altyapı gereksinimini ortadan kaldırır. Uygulamalar Databricks sunucusuz platformunda barındırılır ve temel platform hizmetleriyle tümleştirilir. Uygulamanın Lakehouse'dan eşitlenmiş OLTP verilerine ihtiyacı varsa Lakebase'i kullanın.

Lakehouse federasyonu

Azure Databricks için Lakehouse federasyon başvuru mimarisi.

İndir: Azure Databricks için Lakehouse federasyonu başvuru mimarisi

Lakehouse Federation dış veri SQL veritabanlarının (MySQL, Postgres, SQL Server veya Azure Synapse gibi) Databricks ile tümleştirilmesine olanak tanır.

Tüm iş yükleri (AI, DWH ve BI), verileri önce ETL işlemine tabi tutarak nesne depolamaya aktarmaya gerek kalmadan bundan faydalanabilir. Dış kaynak kataloğu Unity kataloğuna eşlenir ve Databricks platformu aracılığıyla erişime ayrıntılı erişim denetimi uygulanabilir.

Katalog birleştirme

Azure Databricks için katalog federasyon başvuru mimarisi.

İndirme: Azure Databricks için katalog federasyon başvuru mimarisi

Katalog federasyonu dış Hive Meta veri depolarının (MySQL, Postgres, SQL Server veya Azure Synapse gibi) Databricks ile tümleştirilmesine olanak tanır.

Tüm iş yükleri (AI, DWH ve BI), verileri önce ETL işlemine tabi tutarak nesne depolamaya aktarmaya gerek kalmadan bundan faydalanabilir. Dış kaynak kataloğu, Databricks platformu aracılığıyla ayrıntılı erişim denetiminin uygulandığı Unity Kataloğu'na eklenir.

Üçüncü taraf araçlarıyla Veri Paylaşma

Azure Databricks için kurumsal veri paylaşımı başvuru mimarisi.

İndirme: Azure Databricks için 3. taraf araçlar başvuru mimarisiyle veri paylaşma

Üçüncü taraflarla kurumsal düzeyde veri paylaşımı Delta Sharing tarafından sağlanır. Unity Kataloğu tarafından güvenliği sağlanan nesne deposundaki verilere doğrudan erişim sağlar. Bu özellik, veri ürünleri alışverişi için açık bir forum olan Databricks Market'te de kullanılır.

Databricks'ten paylaşılan verileri kullanma

Azure Databricks için Databricks'ten paylaşılan verileri kullanma.

İndirme: Azure Databricks için Databricks başvuru mimarisinden paylaşılan verileri kullanma

Delta Sharing Databricks-To-Databricks protokolü, kullanıcının Unity Kataloğu için etkinleştirilmiş bir çalışma alanına erişimi olduğu sürece hesap veya bulut konağı ne olursa olsun tüm Databricks kullanıcılarıyla güvenli bir şekilde veri paylaşmasına olanak tanır.