Azure Databricks'te veri araştırma araçları
Kaynaklarınızdan veri aldıktan sonra azure databricks platformunu kullanarak verilerinizi işbirliğiyle inceleyebilir ve analiz edebilirsiniz.
Şimdi Azure Databricks'te verilerle çalışırken kullandığınız araçları inceleyelim.
Not defterleriyle birlikte çalışma ve kod çalıştırma
Verileri keşfetmek ve görselleştirmek için Python, SQL, Scala veya R kodu yazmak için Azure Databricks'teki not defterlerini kullanabilirsiniz. Not defterleri etkileşimli veri keşfetmeyi destekler ve ekip üyeleri arasında paylaşılabilir. Ayrıca veri bilimcilerinin verilerin şeklini ve içeriğini anlaması için veri profili oluşturma özelliklerini de destekler.
Veri dağıtımlarını, eğilimlerini ve desenlerini hızlı bir şekilde anlamak için yerleşik görselleştirmeleri kullanabilirsiniz. Yerleşik özelliklerin yanında, Azure Databricks daha karmaşık görselleştirmeler için Matplotlib, Seaborn veya D3.js gibi yaygın olarak kullanılan açık kaynak kitaplıklarla tümleştirmenize olanak tanır.
Spark DataFrames ile çalışma
Not defterlerindeki verilerle çalışırken Apache Spark üzerinde oluşturulan Spark DataFrame'leri kullanırsınız. DataFrame'ler büyük veri kümelerini verimli bir şekilde işlemenizi sağlar.
Örneğin, basit bir DataFrame oluşturmak için aşağıdaki kodu çalıştırabilirsiniz:
data = [("Alice", 34), ("Bob", 45), ("Cathy", 29)]
columns = ["Name", "Age"]
df = spark.createDataFrame(data, columns)
DataFrame'ler filtreleme, toplama ve birleştirme gibi veri keşfi için kritik öneme sahip işlemleri destekler.
Örneğin, bir DataFrame'i filtreleyebilirsiniz:
filtered_df = df.filter(df["Age"] > 30)
Azure Databricks, Veri Çerçevesi işlemleri ile SQL sorguları arasında geçiş yaparak verilerle en doğal şekilde etkileşime geçme olanağı sağlayarak SQL'i de destekler.
DataFrame'i bir SQL sorgusu kullanarak filtrelemek için önce geçici bir görünüm oluşturursunuz:
df.createOrReplaceTempView("people")
sql_df = spark.sql("SELECT Name, Age FROM people WHERE Age > 30")
İpucu
Veri çerçeveleri hakkında daha fazla bilgi için bkz . Öğretici: Apache Spark DataFrames kullanarak verileri yükleme ve dönüştürme.
Kitaplıkları ve API'leri kullanarak verileri keşfetme
Verilerinizle ne yapmak istediğinize bağlı olarak, size istediğiniz veri işleme adımlarını gerçekleştirme işlevselliği sağlamak için belirli kitaplıkları ve API'leri kullanmanız gerekir.
Açık kaynak kitaplıkları yükleme
Veri analisti, veri mühendisi veya veri bilimcisi olarak, verileri keşfetmek ve işlemek için tercih ettiğiniz açık kaynak kitaplıklarını kullanabilirsiniz. Azure Databricks, ek veri analizi özellikleri için Pandas, NumPy veya Scikit-learn gibi Python kitaplıklarını yüklemenize olanak tanır.
İpucu
Azure Databricks'te kitaplıklarla çalışma hakkında daha fazla bilgi için bkz . Kitaplıklar.
Makine öğrenmesi iş yükleri için MLlib kullanma
Verilerinizi keşfetmenize ve işlemenize yardımcı olması için makine öğrenmesi modellerini eğitebilirsiniz. Spark'ın MLlib'iyle, not defterlerinize bağlı dağıtılmış işlem kümelerini en iyi şekilde kullanırsınız. MLlib kitaplığıyla kümeleme, regresyon ve sınıflandırma gibi makine öğrenmesi tekniklerini uygulayarak verilerinizdeki gizli ve karmaşık desenleri ortaya çıkarmanıza yardımcı olabilirsiniz.
Dış görselleştirme araçlarıyla verileri görselleştirme
Yerleşik grafik seçeneklerinin yanı sıra Azure Databricks, gelişmiş pano oluşturma özellikleri için Tableau veya Power BI gibi dış görselleştirme araçlarıyla tümleştirilir.
Power BI Desktop'ı Azure Databricks kümelerine ve Databricks SQL ambarlarına bağlayabilirsiniz. Ayrıca Power BI raporlarını Power BI hizmetinde yayımlayabilir ve kullanıcıların, rapora erişmek için kullandıkları Microsoft Entra Id kimlik bilgilerini geçirerek çoklu oturum açma (SSO) kullanarak temel alınan Azure Databricks verilerine erişmesini sağlayabilirsiniz.
Power BI Desktop'tan Azure Databricks'e bağlanmak için çeşitli yöntemler vardır:
İş Ortağı Bağlantısı kullanarak Azure Databricks'e bağlanma: Power BI'ı el ile gerçekleştirilen minimum adımlarla Databricks SQL ambarınıza bağlanacak şekilde otomatik olarak yapılandıran, Databricks'te kılavuzlu bir kurulum.
Azure Databricks'e el ile bağlanma: Power BI Databricks bağlayıcısını kullandığınız, çalışma alanı SQL ambarı uç noktasını girdiğiniz ve bağlantıyı kurmak için kimlik doğrulaması yaptığınız el ile gerçekleştirilen bir işlemdir.
Power BI Delta Sharing bağlayıcısı: Power BI'ın, Databricks çalışma alanına veya kümesine doğrudan erişim gerektirmeden Delta Sharing aracılığıyla paylaşılan Delta tablolarını sorgulamasına olanak tanıyan bağlayıcı.
SQL düzenleyicisinde verileri keşfetme
Azure Databricks'teki SQL Düzenleyicisi, göl evinizdeki verilere karşı SQL sorguları yazabileceğiniz ve çalıştırabileceğiniz bir çalışma alanıdır. Standart SQL komutlarını destekler ve söz dizimi vurgulama, otomatik tamamlama ve geçmiş sorgularınızın geçmişi gibi yararlı özellikler içerir. Bu, sorguları denemenizi, geliştirmenizi ve daha önce keşfettiklerini izlemenizi kolaylaştırır.
Keşfetmeye başlamak için Katalog Gezgini bölmesini kullanarak kullanılabilir veritabanlarını, şemaları ve tabloları görebilirsiniz. Tablo seçildiğinde, sorgu çalıştırmadan önce yapısını anlayabilebilmeniz için tablo sütunları ve veri türleri gösterilir. Buradan, örnek satırları görüntülemek, sonuçları filtrelemek veya verilerin içeriği ve kalitesiyle ilgili hızlı bir anlayış elde etmek için toplamalar uygulamak için sorgular yazabilirsiniz. Sonuçlar varsayılan olarak tablo biçiminde görünür, ancak bunları desenleri veya eğilimleri saptamak için basit grafikler olarak da görüntüleyebilirsiniz.
SQL Düzenleyicisi, sorguları daha sonra kullanmak üzere kaydetmenize ve tekrarlanabilir keşif için düzenlemenize de olanak tanır. Parametre ekleyerek kaydedilmiş sorguları uyarlayabilir veya aynı veriler üzerinde çalışan ekip arkadaşlarınızla paylaşabilirsiniz. Sonuçlara düzenli olarak ihtiyacınız varsa, daha kolay erişim için sorgu zamanlayabilir veya bunları panolara ekleyebilirsiniz. Bu özelliklerle SQL Düzenleyicisi, Databricks'ten çıkmadan verilerinizi incelemek, sorgulamak ve analiz etmek için pratik bir yol sağlar.
Bu araçlar, Azure Databricks'i temel veri temizlemeden gelişmiş makine öğrenmesi projelerine kadar her şeyi işleyen, veri keşfi için esnek bir platform haline getirir.