Azure Databricks ve Delta Lake ile alım, ETL ve akış işleme işlem hatları

Azure Databricks
Azure Data Lake Storage
Azure IoT Hub
Azure Data Factory
Azure Event Hubs

Çözüm fikirleri

Bu makale bir çözüm fikridir. İçeriği olası kullanım örnekleri, alternatif hizmetler, uygulama konuları veya fiyatlandırma kılavuzu gibi daha fazla bilgiyle genişletmemizi isterseniz GitHub geri bildirimi sağlayarak bize bildirin.

Kuruluşunuzun her türlü biçim, boyut ve hızdaki verileri tutarlı bir şekilde buluta alması gerekir. Bu makaledeki çözüm, veri kaynaklarınızdan bir veri gölüne ayıklama, dönüştürme ve yükleme (ETL) uygulayan bir mimariyle bu gereksinimi karşılar. Veri gölü, çeşitli ölçeklerde dönüştürülmüş ve seçilmiş sürümler de dahil olmak üzere tüm verileri tutabilir. Veriler veri analizi, iş zekası (BI), raporlama, veri bilimi ve makine öğrenmesi için kullanılabilir.

Apache® ve Apache Spark™, Apache Software Foundation'ın Birleşik Devletler ve/veya diğer ülkelerdeki kayıtlı ticari markaları veya ticari markalarıdır. Bu işaretlerin kullanılması Apache Software Foundation tarafından onaylanmamaktadır.

Mimari

Azure Databricks ile ETL ve akış işleme için mimariyi ve veri akışını gösteren diyagram.

Bu mimarinin bir Visio dosyasını indirin.

Veri akışı

  1. Veriler aşağıdaki yollarla alının:

    • Event Hubs, IoT Hub veya Kafka gibi olay kuyrukları akış verilerini Azure Databricks'e gönderir ve bu da verileri okumak için iyileştirilmiş Delta Altyapısı'nı kullanır.
    • Zamanlanmış veya tetiklenen Data Factory işlem hatları, farklı veri kaynaklarından ham biçimlerde veri kopyalar. Azure Databricks'teki Otomatik Yükleyici, verileri geldikçe işler.
  2. Azure Databricks, verileri Data Lake Storage'daki Bronz katmanındaki iyileştirilmiş, sıkıştırılmış Delta Lake tablolarına veya klasörlerine yükler.

  3. Akış, zamanlanmış veya tetiklenen Azure Databricks işleri Data Lake Storage Bronz katmanından yeni işlemleri okur. İşler, ACID işlemlerini kullanarak Data Lake Storage Silver ve Gold katmanlarında seçilmiş veri kümelerine yüklemek için verileri birleştirir, temizler, dönüştürür ve toplar.

  4. Veri kümeleri Data Lake Storage Delta Lake'te depolanır.

Her hizmet, tutarlılığı sağlamak için verileri ortak bir biçime alır. Mimari, açık Delta Lake biçimini temel alan paylaşılan bir veri gölü kullanır. Ham veriler, birleşik bir veri platformu oluşturmak için farklı toplu iş ve akış kaynaklarından alınıyor. Platform analiz, BI raporlama, veri bilimi, yapay zeka ve makine öğrenmesi gibi aşağı akış kullanım örnekleri için kullanılabilir.

Bronz, Gümüş ve Altın depolama katmanları

Bronz, Gümüş ve Altın depolama katmanlarından oluşan madalyon deseniyle müşteriler esnek erişime ve genişletilebilir veri işlemeye sahip olur.

  • Bronz tablolar, ham veriler Data Lake Storage geldiğinde giriş noktası sağlar. Veriler ham kaynak biçiminde alınır ve işlenmek üzere açık, işlemsel Delta Lake biçimine dönüştürülür. Çözüm, aşağıdakileri kullanarak verileri Bronz katmanına aktarır:
    • Azure Databricks'teki Apache Spark API'leri. API'ler Event Hubs veya IoT Hub akış olaylarını okur ve ardından bu olayları veya ham dosyaları Delta Lake biçimine dönüştürür.
    • COPY INTO komutu. Verileri doğrudan bir kaynak dosyadan veya dizinden Delta Lake'e kopyalamak için komutunu kullanın.
    • Azure Databricks Otomatik Yükleyicisi. Otomatik Yükleyici, veri gölüne ulaşan dosyaları alır ve Delta Lake biçimine yazar.
    • Data Factory Kopyalama Etkinliği. Müşteriler, desteklenen biçimlerden herhangi birinden verileri Delta Lake biçimine dönüştürmek için bu seçeneği kullanabilir.
  • Silver tabloları, bi ve veri bilimi kullanım örnekleri için iyileştirildiği sırada verileri depolar. Bronz katmanı ham verileri alır ve ardından verileri filtrelemek, temizlemek, dönüştürmek, birleştirmek ve Silver tarafından seçilmiş veri kümelerinde toplamak için daha fazla ETL ve akış işleme görevi gerçekleştirilir. Şirketler, bu görevler için ilk hizmet olarak Azure Databricks'i kullanırken açık standartlar Delta Altyapısı gibi tutarlı bir işlem altyapısı kullanabilir. Daha sonra SQL, Python, R veya Scala gibi tanıdık programlama dillerini kullanabilirler. Şirketler, kendi iş yüklerine göre boyutlandırılmış tekrarlanabilir DevOps işlemlerini ve kısa ömürlü işlem kümelerini de kullanabilir.
  • Altın tablolar, analiz ve raporlama için hazır zenginleştirilmiş veriler içerir. Analistler yeni içgörüler elde etmek ve sorguları formüle etmek için PySpark, Koalas, SQL, Power BI ve Excel gibi tercih ettikleri yöntemi kullanabilir.

Bileşenler

  • Event Hubs , şirket içi sistemler de dahil olmak üzere çeşitli kaynaklardan gelen akış iletilerini ayrıştırır ve puanlar ve gerçek zamanlı bilgiler sağlar.
  • Data Factory , tüm verilerinizin herhangi bir ölçekte alımı, hazırlanması ve dönüştürülmesi için veri işlem hatlarını düzenler.
  • Data Lake Storage, günlükler, dosyalar ve medya gibi yapılandırılmış, yapılandırılmamış ve yarı yapılandırılmış veriler de dahil olmak üzere akış ve toplu iş verilerini bir araya getirir.
  • Azure Databricks , yapısız veri kümelerini temizler ve dönüştürür ve bunları işletimsel veritabanlarından veya veri ambarlarından yapılandırılmış verilerle birleştirir.
  • IoT Hub, IoT uygulamanızla cihazlarınız arasında yüksek oranda güvenli ve güvenilir iletişim sağlar.
  • Data Lake Storage üzerinde Delta Lake güvenilirlik için ACID işlemlerini destekler ve verimli alım, işleme ve sorgular için iyileştirilmiştir.

Senaryo ayrıntıları

Azure Databricks ile alım, ETL ve akış işleme basit, açık ve işbirliğine dayalıdır:

  • Basit: Açık kaynak biçiminde seçilmiş bir katmana sahip açık veri gölü, veri mimarisini basitleştirir. Açık kaynak bir araç olan Delta Lake, Azure Data Lake Storage veri gölüne erişim sağlar. Data Lake Storage'de Delta Lake güvenilirlik için bölünmezlik, tutarlılık, yalıtım ve dayanıklılık (ACID) işlemlerini destekler. Delta Lake verimli alım, işleme ve sorgular için iyileştirilmiştir.
  • Açık: Çözüm açık kaynak kodunu, açık standartları ve açık çerçeveleri destekler. Ayrıca popüler tümleşik geliştirme ortamları (IDE'ler), kitaplıklar ve programlama dilleri ile de çalışır. Yerel bağlayıcılar ve API'ler aracılığıyla çözüm, çok çeşitli diğer hizmetlerle de çalışır.
  • İşbirliği: Veri mühendisleri, veri bilimcileri ve analistler bu çözümle birlikte çalışır. Ortak temel alınan verilere erişmek ve bunları analiz etmek için işbirliğine dayalı not defterleri, IDE'ler, panolar ve diğer araçları kullanabilirler.

Azure Databricks; Data Lake Storage, Azure Data Factory, Azure Event Hubs ve Azure IoT Hub gibi diğer Azure hizmetleriyle sorunsuz bir şekilde tümleştirilir.

Olası kullanım örnekleri

Bu çözüm, gerçek zamanlı analiz için oluşturulan Providence Health Care sisteminden esinlenmektedir. Toplu iş veya akış verilerini alan tüm sektörler de bu çözümü göz önünde bulundurabilir. Örneklere şunlar dahildir:

  • Perakende ve e-ticaret
  • Finance
  • Sağlık ve yaşam bilimleri
  • Enerji sağlayıcıları

Sonraki adımlar

  • Providence Health Care, veri akışı çözümünü Azure Databricks'i kullanarak oluşturur ve her acil durum departmanı için Ulusal Acil Durum Departmanı Aşırı Kalabalık Puanını geliştirmek üzere Azure Event Hubs.
  • Spanish Point Technologies, Eşleştirme Altyapısını Azure Databricks kullanarak oluşturur ve müzisyenlerin uygun ödeme almasına yardımcı olmak için büyük ölçekte veri almaya Azure Data Factory.

Kılavuzlar ve tam olarak dağıtılabilir mimariler: