Azure Databricks ile Veri Analizi Çözümü Uygulama

Bir bakışta

Bu öğrenme yolunun sonunda Databricks ve Azure üzerindeki Spark konusunda orta düzeyden ileri düzeye kadar sağlam beceriler geliştirmiş olacaksınız. Spark DataFrames, Spark SQL ve PySpark kullanarak büyük ölçekli veri kümelerini alıp dönüştürebilir ve analiz edebilir, bu da dağıtılmış veri işlemeyle çalışırken size güven verir. Databricks'in içinde çalışma alanında gezinmeyi, kümeleri yönetmeyi ve Delta tabloları oluşturup korumayı bilirsiniz.

Ayrıca ETL işlem hatlarını tasarlayıp çalıştırabilecek, Delta tablolarını iyileştirebilecek, şema değişikliklerini yönetebilecek ve veri kalitesi kuralları uygulayabileceksiniz. Buna ek olarak, iş yüklerini Lakeflow İşleri ve işlem hatları ile düzenlemeyi öğrenerek keşiften otomatik iş akışlarına geçmenizi sağlarsınız. Son olarak Unity Kataloğu, Purview tümleştirmesi ve erişim yönetimi gibi idare ve güvenlik özellikleri hakkında bilgi edinerek üretime hazır veri ortamlarında etkili bir şekilde çalışmaya hazır olursunuz.

Önkoşullar

Bu öğrenme yoluna başlamadan önce Python ve SQL'in temelleri konusunda zaten rahat olmanız gerekir. Buna basit Python betikleri yazabilmek ve yaygın veri yapılarıyla çalışabilmenin yanı sıra verileri filtrelemek, birleştirmek ve toplamak için SQL sorguları yazmak dahildir. CSV, JSON veya Parquet gibi yaygın dosya biçimlerini temel olarak anlamak, veri kümeleriyle çalışırken de yardımcı olacaktır.

Ayrıca Azure portalı ve Azure Depolama gibi temel hizmetler hakkında bilgi sahibi olmak, toplu işlem ve akış işleme ile yapılandırılmış ve yapılandırılmamış veriler gibi veri kavramları hakkında genel bir farkındalık sağlama açısından önemlidir. Zorunlu olmasa da Spark gibi büyük veri çerçevelerine maruz kalma ve Jupyter not defterleriyle çalışma deneyimi, Databricks'e geçişi daha sorunsuz hale getirir.

Bu öğrenme yolundaki modüller

Azure Databricks, Apache Spark kullanarak veri analizi için ölçeklenebilir bir platform sağlayan bir bulut hizmetidir.

Azure Databricks kullanarak veri analizi gerçekleştirmeyi öğrenin. Çeşitli veri alımı yöntemlerini ve Azure Data Lake ve Azure SQL Veritabanı gibi kaynaklardan verileri tümleştirmeyi keşfedin. Bu modül, desenleri, anomalileri ve bağıntıları ortaya çıkarmak için verileri görselleştirmeniz, işlemeniz ve incelemeniz için işbirliğine dayalı not defterlerini kullanarak keşif veri analizi (EDA) gerçekleştirmenize yardımcı olur.

Azure Databricks, Apache Spark üzerine kurulmuştur ve veri mühendislerinin ve analistlerinin verileri büyük ölçekte dönüştürmek, çözümlemek ve görselleştirmek için Spark işlerini çalıştırmasına olanak tanır.

Delta Lake, Azure Databricks'te ACID işlemleri, şema zorlama ve zaman yolculuğu dahil olmak üzere veri tutarlılığı, bütünlük ve sürüm oluşturma özellikleri sağlayan bir veri yönetimi çözümüdür.

Lakeflow Bildirimli İşlem Hatları Oluşturma, Delta Lake'in Azure Databricks'teki gelişmiş özelliklerini kullanarak gerçek zamanlı, ölçeklenebilir ve güvenilir veri işlemeye olanak tanır

Lakeflow İşleri ile iş yüklerinin dağıtılması karmaşık veri işleme işlem hatlarını, makine öğrenmesi iş akışlarını ve analiz görevlerini düzenlemeyi ve otomatikleştirmeyi içerir. Bu modülde Databricks Lakeflow İşleri ile iş yüklerini dağıtmayı öğreneceksiniz.