Aracılığıyla paylaş


Veri bilimi uçtan uca senaryo: giriş ve mimari

Bu öğreticiler, Fabric veri bilimi deneyiminde eksiksiz bir uçtan uca senaryo sunar. Onlar, her adımı kapsıyor

  • Veri alımı
  • Verileri temizleme
  • Veri hazırlama

için

  • Makine öğrenmesi modeli eğitimi
  • İçgörü oluşturma

ve ardından görselleştirme araçlarıyla (örneğin, Power BI) bu içgörülerin tüketimini ele alın.

Microsoft Fabric'i yeni kullanmaya yeni gelen kişiler Microsoft Fabric nedir? adresini ziyaret etmelidir.

Giriş

Veri bilimi projesi yaşam döngüsü genellikle şu adımları içerir:

  • İş kurallarını anlama
  • Verileri alma
  • Verileri keşfetme, temizleme, hazırlama ve görselleştirme
  • Modeli eğitin ve denemeyi izleyin
  • Modeli puanlayın ve içgörüler oluşturun

Adımlar genellikle yinelemeli olarak devam eder. Her aşamanın hedefleri ve başarı ölçütleri işbirliğine, veri paylaşımına ve belgelere bağlıdır. Doku veri bilimi deneyimi sorunsuz işbirliği, veri alımı, paylaşım ve tüketim sağlayan yerel olarak oluşturulmuş birden çok özellik içerir.

Bu öğreticiler sizi 10.000 banka müşterisinin değişim durumunu içeren bir veri kümesini keşfetmesi, temizlemesi ve dönüştürmesi gereken bir veri bilimcisi rolüne yerleştirir. Ardından, hangi banka müşterilerinin ayrılacağını tahmin etmek için bir makine öğrenmesi modeli oluşturursunuz.

Kılavuzlarda aşağıdaki etkinlikleri gerçekleştirirsiniz:

  1. Veri bilimi senaryoları için Fabric not defterlerini kullanın
  2. Fabric lakehouse'a veri almak için Apache Spark kullanın
  3. Göl veri deposu delta tablolarından mevcut verileri yükleme
  4. Verileri temizlemek ve dönüştürmek için Apache Spark ve Python tabanlı araçları kullanma
  5. Farklı makine öğrenmesi modellerini eğitmek için denemeler ve çalıştırmalar oluşturma
  6. Eğitim modellerini kaydetmek ve izlemek için MLflow ve Fabric UI'yi kullanın.
  7. Büyük ölçekte puanlama çalıştırın ve tahminleri ve çıkarım sonuçlarını lakehouse'a kaydedin
  8. Power BI'da tahminleri görselleştirmek için DirectLake kullanma

Mimarlık

Bu öğretici serisi, aşağıdakileri içeren basitleştirilmiş bir uçtan uca veri bilimi senaryosunu gösterir:

  1. Dış veri kaynağından veri alımı.
  2. Veri keşfi ve temizleme.
  3. Makine öğrenmesi modeli eğitimi ve kaydı.
  4. Toplu skorlama ve tahmin kaydetme.
  5. Power BI'da tahmin sonucu görselleştirmesi.

Veri bilimi uçtan uca senaryo bileşenlerinin diyagramı.

Veri bilimi senaryosunun farklı bileşenleri

Veri kaynakları - Azure Veri Hizmetleri, diğer bulut platformları ve şirket içi veri kaynakları ile hızlı ve kolay bir bağlantı kurarak, Fabric üzerinden veri alabilirsiniz. Fabric Not Defterleri ile şu kaynaklardan veri alabilirsiniz:

  • Dahili Göl Evleri
  • Veri Ambarları
  • Anlamsal modeller
  • Çeşitli Apache Spark veri kaynakları
  • Python'i destekleyen çeşitli veri kaynakları

Bu öğretici serisi, bir göl evinden veri alımına ve yüklenmesine odaklanır.

Keşfedin, temizleyin ve hazırlayın - Doku veri bilimi deneyimi veri temizleme, dönüştürme, araştırma ve özellik geliştirmeyi destekler. Data Wrangler ve SemPy Kitaplığı gibi yerleşik Spark deneyimlerini ve Python tabanlı araçları kullanır. Bu öğreticide Python kitaplığıyla seaborn veri keşfi ve Apache Spark ile veri temizleme ve hazırlama işlemleri gösterilir.

Modeller ve deneyler - Fabric ile entegre deneylerle makine öğrenmesi modellerini eğitebilir, değerlendirebilir ve puanlayabilirsiniz. MLflow, modellerinizi kaydetmek ve dağıtmak ile deneyleri izlemek için Fabric ile sorunsuz bir tümleştirme sunarak öğeleri modellemenizi sağlar. İş içgörüleri oluşturmak ve paylaşmak için Fabric, iş içgörüleri oluşturmak ve paylaşmak için uygun ölçekte model tahmini (PREDICT) için başka özellikler de sunar.

Depolama - Fabric, Delta Lake'i standart olarak kullanır, bu da tüm Fabric motorlarının bir lakehouse'ta depolanan aynı veri setiyle etkileşim kurabileceği anlamına gelir. Bu depolama katmanıyla, hem dosya tabanlı depolamayı hem de tablosal biçimi destekleyen hem yapılandırılmış hem de yapılandırılmamış verileri depolayabilirsiniz. Not defterleri ve işlem hatları gibi tüm Doku deneyimi öğeleri aracılığıyla veri kümelerine ve depolanan dosyalara kolayca erişebilirsiniz.

Analiz ve içgörüleri kullanıma sunma - Sektör lideri bir iş zekası aracı olan Power BI, rapor ve görselleştirme oluşturma için lakehouse verilerini kullanabilir. Not defteri kaynakları arasında Python veya Spark yerel görselleştirme kitaplıkları

  • matplotlib
  • seaborn
  • plotly
  • vb.

bir göl evinde kalıcı olan verileri görselleştirebilir. SemPy kitaplığı, veri görselleştirmeyi de destekler. Bu kitaplık, yerleşik zengin ve göreve özgü görselleştirmeleri destekler.

  • Anlamsal veri modeli
  • Bağımlılıklar ve bunların ihlalleri
  • Sınıflandırma ve regresyon kullanım örnekleri

Sonraki adım