Azure Databricks ile veri tümleştirme ve analiz çözümü tasarlama

Tamamlandı

Azure Databricks , geliştiricilerin yapay zekayı ve yenilikleri hızlandırmasını sağlayan, tam olarak yönetilen, bulut tabanlı bir Büyük Veri ve Makine Öğrenmesi platformudur. Azure Databricks, veri bilimi ve mühendislik ekiplerine büyük veri işleme ve Machine Learning için tek bir platform sağlar. Azure Databricks tarafından yönetilen Apache Spark platformu, büyük ölçekli Spark iş yüklerinin çalıştırılmasını kolaylaştırır.

Azure Databricks hakkında bilinmesi gerekenler

Azure Databricks tamamen Apache Spark'ı temel alır ve açık kaynak küme bilgi işlem çerçevesine zaten aşina olan kullanıcılar için harika bir araçtır. Databricks, özellikle büyük veri işleme için tasarlanmıştır. Veri bilimciler SQL, Java, Python, R ve Scala gibi temel diller için yerleşik çekirdek API'den yararlanabilir.

Azure Databricks'in Denetim düzlemi ve Veri düzlemi vardır:

  • Denetim Düzlemi: Databricks işlerini, sorgu sonuçlarını içeren not defterlerini ve küme yöneticisini barındırıyor. Denetim düzleminde ayrıca web uygulaması, hive meta veri deposu, güvenlik erişim denetim listeleri (ACL' ler) ve kullanıcı oturumları bulunur. Microsoft bu bileşenleri Azure Databricks ile işbirliği içinde yönetir.
  • Veri Düzlemi: Çalışma alanında barındırılan tüm Azure Databricks çalışma zamanı kümelerini içerir. Tüm veri işleme ve depolama, istemci aboneliği içinde bulunur. Microsoft/Databricks tarafından yönetilen abonelikte hiçbir veri işleme gerçekleşmez.

Azure Databricks, yoğun veri gerektiren uygulamalar geliştirmek için üç ortam sunar.

  • Databricks SQL: Azure Databricks SQL, veri gölünde SQL sorguları çalıştırmak isteyen analistler için kullanımı kolay bir platform sağlar. Farklı perspektiflerden sorgu sonuçlarını incelemek ve pano oluşturup paylaşmak için birden çok görselleştirme türü oluşturabilirsiniz.
  • Databricks Veri Bilimi ve Mühendisliği: Azure Databricks Veri Bilimi ve Mühendisliği, veri mühendisleri, veri bilimciler ve makine öğrenmesi mühendisleri arasında işbirliği sağlayan etkileşimli bir çalışma alanıdır . Büyük veri işlem hattı için veriler (ham veya yapılandırılmış) Azure Data Factory aracılığıyla toplu olarak alınır veya Apache Kafka, Azure Event Hubs veya Azure IoT Hub kullanılarak gerçek zamanlıya yakın akış yapılır. Veriler, Azure Blob Depolama veya Azure Data Lake Storage içinde uzun süreli kalıcı depolama için bir veri gölüne iner. Analiz iş akışınızın bir parçası olarak Azure Databricks'i kullanarak birden çok veri kaynağındaki verileri okuyun ve Spark kullanarak bu verileri çığır açan içgörülere dönüştürün.
  • Databricks Machine Learning: Azure Databricks Machine Learning tümleşik bir uçtan uca makine öğrenmesi ortamıdır. Deneme izleme, model eğitimi, özellik geliştirme ve yönetimi ile özellik ve model sunma için yönetilen hizmetleri içerir.

İş senaryosu

Şimdi tailwind traders için ağır makine üretim bölümünde bir senaryoyu analiz edelim. Tailwind Traders, büyük veri ihtiyaçları için Azure bulut hizmetlerini kullanıyor. Hem toplu verilerle hem de akış verileriyle çalışıyor. Bu bölümde, birçok paydaş için hızlı içgörüler elde etmek üzere işbirliği yapan veri mühendisleri, veri bilimcileri ve veri analistleri yer alır. Büyük veri gereksinimlerini karşılamak için Azure Databricks'i önermeyi ve Veri Bilimi ve Mühendislik ortamını uygulamayı planlıyorsunuz.

Şimdi Azure Databricks'in bu gereksinimleri karşılamak için neden doğru seçim olabileceğini gözden geçirelim.

  • Azure Databricks, farklı kullanıcılar arasında işbirliğine olanak tanıyan Apache Spark tabanlı tümleşik bir Analytics çalışma alanı sağlar.
  • Azure Databricks, Spark SQL ve Dataframes gibi Spark bileşenlerini kullanarak yapılandırılmış verileri işleyebilir. Akış verilerini işlemek için Kafka ve Flume gibi gerçek zamanlı veri alımı araçlarıyla tümleştirilir.
  • Spark üzerinde oluşturulan güvenli veri tümleştirme özellikleri, verilerinizi merkezileştirme olmadan birleştirmenizi sağlar. Veri bilimciler birkaç adımda verileri görselleştirebilir ve Matplotlib, ggplot veya d3 gibi tanıdık araçları kullanabilir.
  • Azure Databricks çalışma zamanı, altyapı karmaşıklığını ve veri altyapınızı ayarlamak ve yapılandırmak için özelleştirilmiş uzmanlık gereksinimini özetler. Kullanıcılar Python, Scala ve R için mevcut dil becerilerini kullanabilir ve verileri keşfedebilir.
  • Azure Databricks, Azure Synapse Analytics, Azure Cosmos DB, Azure Data Lake Storage ve Azure Blob Depolama gibi Azure veritabanları ve depolarıyla tümleştirilir. Tailwind Traders'ın büyük veri depolama gereksinimlerini karşılayan farklı veri deposu platformlarını destekler.
  • Power BI ile tümleştirme, Tailwind Traders için bir gereksinim olan hızlı ve anlamlı içgörüler sağlar.
  • Yapılandırılmamış verileri işleyemediğinden Azure Databricks SQL doğru seçim değildir.
  • Bu senaryoda makine öğrenmesi gerekli olmadığından Azure Databricks Machine Learning de doğru ortam seçimi değildir.

Azure Databricks kullanırken dikkat edilmesi gerekenler

Azure Databricks'i birden çok senaryo için çözüm olarak kullanabilirsiniz. Hizmetin Tailwind Traders için veri tümleştirme çözümünüzden nasıl yararlanabileceğini düşünün.

  • Veri bilimi hazırlamayı göz önünde bulundurun. Karmaşık, yapılandırılmamış veri kümelerini oluşturun, kopyalayıp düzenleyin. Veri kümelerini belirli işlere dönüştürün. Sonuçları incelenmek üzere veri bilimcilerine ve veri analistlerine teslim edin.
  • Verilerdeki içgörüleri göz önünde bulundurun. Öneri altyapıları, değişim sıklığı analizi ve yetkisiz erişim algılaması oluşturmak için Azure Databricks'i uygulayın.
  • Veri ve analiz ekipleri arasında üretkenliği göz önünde bulundurun. Veri mühendisleri, analistler ve bilim adamları için işbirliğine dayalı bir ortam ve paylaşılan çalışma alanları oluşturun. Ekipler paylaşılan çalışma alanlarıyla veri bilimi yaşam döngüsü boyunca birlikte çalışabilir ve bu da değerli zaman ve kaynaklardan tasarruf etmeye yardımcı olur.
  • Büyük veri iş yüklerini göz önünde bulundurun. Büyük veri iş yükleriniz için en iyi performansı ve güvenilirliği elde etmek için Azure Data Lake ve altyapı alıştırması yapın. Çok adımlı veri işlem hatları oluşturma.
  • Makine öğrenmesi programlarını göz önünde bulundurun. Tümleşik uçtan uca makine öğrenmesi ortamından yararlanın. Deneme izleme, model eğitimi, özellik geliştirme ve yönetimi ile özellik ve model sunma için yönetilen hizmetleri içerir.