Aracılığıyla paylaş


Microsoft Fabric'te Veri Bilimi nedir?

Microsoft Fabric, kullanıcıların veri zenginleştirme ve iş içgörüleri amacıyla uçtan uca veri bilimi iş akışlarını tamamlamalarını sağlamak için Veri Bilimi deneyimler sunar. Veri bilimi sürecinin tamamında veri keşfetme, hazırlama ve temizlemeden denemelere, modellemeye, model puanlama ve tahmine dayalı içgörülerin BI raporlarına sunulmasına kadar çok çeşitli etkinlikleri tamamlayabilirsiniz.

Microsoft Fabric kullanıcıları Veri Bilimi Giriş sayfasına erişebilir. Buradan, çeşitli ilgili kaynakları bulabilir ve bunlara erişebilirler. Örneğin makine öğrenmesi Denemeleri, Modeller ve Not Defterleri oluşturabilirler. Ayrıca Veri Bilimi Giriş sayfasında mevcut Not Defterlerini içeri aktarabilir.

Veri bilimi giriş sayfasının ekran görüntüsü.

Tipik bir veri bilimi sürecinin nasıl çalıştığını biliyor olabilirsiniz. İyi bilinen bir süreç olarak, çoğu makine öğrenmesi projesi bunu izler.

Üst düzeyde, işlem şu adımları içerir:

  • Sorun formülasyonu ve fikir oluşturma
  • Veri bulma ve ön işleme
  • Deneme ve modelleme
  • Zenginleştirme ve kullanıma hazır hale getirme
  • İçgörüler kazanma

Veri bilimi sürecinin diyagramı.

Bu makalede veri bilimi süreci perspektifinden Microsoft Fabric Veri Bilimi özellikleri açıklanmaktadır. Veri bilimi sürecindeki her adım için bu makalede yardımcı olabilecek Microsoft Fabric özellikleri özetlenmiştir.

Sorun formülasyonu ve fikir oluşturma

Microsoft Fabric'teki Veri Bilimi kullanıcıları, iş kullanıcıları ve analistleriyle aynı platformda çalışır. Sonuç olarak farklı roller arasında veri paylaşımı ve işbirliği daha sorunsuz hale gelir. Analistler Power BI raporlarını ve veri kümelerini veri bilimi uygulayıcılarıyla kolayca paylaşabilir. Microsoft Fabric'teki roller arasında işbirliği kolaylığı, sorun formülasyonu aşamasında teslimi çok daha kolay hale getirir.

Veri bulma ve ön işleme

Microsoft Fabric kullanıcıları, Lakehouse öğesini kullanarak OneLake'deki verilerle etkileşimde bulunabilir. Lakehouse, verilere göz atmak ve verilerle etkileşime geçmek için not defterine kolayca eklenir.

Kullanıcılar bir Lakehouse'dan pandas veri çerçevesine kolayca veri okuyabilir. Bu, keşif için OneLake'ten sorunsuz veri okumasını mümkün kılar.

Microsoft Fabric'in yerel olarak tümleşik bir parçası olan veri tümleştirme işlem hatları ile veri alımı ve veri düzenleme işlem hatları için güçlü bir araç kümesi sağlanır. Kolay derlenebilir veri işlem hatları verilere erişebilir ve bunları makine öğrenmesinin kullanabileceği bir biçime dönüştürebilir.

Veri keşfi

Makine öğrenmesi sürecinin önemli bir parçası, araştırma ve görselleştirme aracılığıyla verileri anlamaktır.

Microsoft Fabric, veri depolama konumuna bağlı olarak, verileri analiz ve makine öğrenmesi için keşfetmek ve hazırlamak için bir dizi farklı araç sunar. Not defterleri, veri keşfetmeye başlamanın en hızlı yollarından biri haline gelir.

Veri hazırlama için Apache Spark ve Python

Microsoft Fabric verilerinizi büyük ölçekte dönüştürmeye, hazırlamaya ve keşfetmeye yönelik özellikler sunar. Spark ile kullanıcılar, büyük ölçekte veri ön işleme için PySpark/Python, Scala ve SparkR/SparklyR araçlarından yararlanabilir. Güçlü açık kaynak görselleştirme kitaplıkları, verileri daha iyi anlamanıza yardımcı olmak için veri araştırma deneyimini geliştirebilir.

Sorunsuz veri temizleme için Veri Wrangler

Microsoft Fabric Notebook deneyimi, verileri hazırlayan ve Python kodu oluşturan bir kod aracı olan Data Wrangler'ı kullanmaya yönelik bir özellik ekledi. Bu deneyim, sıkıcı ve sıradan görevleri (örneğin, veri temizleme) hızlandırmayı ve oluşturulan kod aracılığıyla tekrarlanabilirlik ve otomasyon oluşturmayı kolaylaştırır. Bu belgenin Data Wrangler bölümünde Data Wrangler hakkında daha fazla bilgi edinin.

Deneme ve ML modelleme

PySpark/Python, SparklyR/R gibi araçlarla, not defterleri makine öğrenmesi modeli eğitimini işleyebilir.

ML algoritmaları ve kitaplıkları makine öğrenmesi modellerini eğitebilirsiniz. Kitaplık yönetim araçları bu kitaplıkları ve algoritmaları yükleyebilir. Bu nedenle kullanıcılar, Microsoft Fabric'te ML modeli eğitimlerini tamamlamak için çok çeşitli popüler makine öğrenmesi kitaplıklarından yararlanma seçeneğine sahiptir.

Ayrıca Scikit Learn gibi popüler kitaplıklar da model geliştirebilir.

MLflow denemeleri ve çalıştırmaları ML modeli eğitimini izleyebilir. Microsoft Fabric, kullanıcıların denemeleri ve modelleri günlüğe kaydetmek için etkileşim kurabileceği yerleşik bir MLflow deneyimi sunar. Microsoft Fabric'te denemeleri izlemek ve modelleri yönetmek için MLflow'u kullanma hakkında daha fazla bilgi edinin.

SynapseML

Microsoft'un sahip olduğu ve bakımını yaptığı SynapseML (eski adıYLA MMLSpark) açık kaynak kitaplığı, yüksek düzeyde ölçeklenebilir makine öğrenmesi işlem hattı oluşturmayı basitleştirir. Bir araç ekosistemi olarak Apache Spark çerçevesini birkaç yeni yönde genişletir. SynapseML, çeşitli mevcut makine öğrenmesi çerçevelerini ve yeni Microsoft algoritmalarını tek, ölçeklenebilir bir API'de birleştirir. Açık kaynak SynapseML kitaplığı, tahmine dayalı modellerin geliştirilmesine ve Azure AI hizmetlerinden önceden eğitilmiş yapay zeka modellerinden yararlanmaya yönelik zengin bir ML araçları ekosistemi içerir. SynapseML hakkında daha fazla bilgi edinin.

Zenginleştirme ve kullanıma hazır hale getirme

Not defterleri tahmin için açık kaynak kitaplıklarla makine öğrenmesi modeli toplu puanlama işlemini veya Microsoft Fabric model kayıt defterinde MLflow paketlenmiş modelleri destekleyen Microsoft Fabric ölçeklenebilir evrensel Spark Predict işlevini işleyebilir.

İçgörüler kazanma

Microsoft Fabric'te Tahmin edilen değerler, Power BI Direct Lake moduyla Kolayca OneLake'e yazılabilir ve Power BI raporlarından sorunsuz bir şekilde kullanılabilir. Bu, veri bilimi uygulayıcılarının çalışmalarından elde ettikleri sonuçları paydaşlarla paylaşmalarını çok kolaylaştırır ve operasyonelleştirmeyi de kolaylaştırır.

Toplu puanlama içeren not defterleri, Not Defteri zamanlama özellikleri kullanılarak çalıştırılacak şekilde zamanlanabilir. Toplu puanlama, veri işlem hattı etkinliklerinin veya Spark işlerinin bir parçası olarak da zamanlanabilir. Power BI, Microsoft Fabric'teki Direct lake modu sayesinde verilerin yüklenmesine veya yenilenmesine gerek kalmadan en son tahminleri otomatik olarak alır.

Önemli

Bu özellik önizleme aşamasındadır.

Veri bilimcileri ve iş analistleri, anlamlı bir analize başlamadan önce verileri anlamak, temizlemek ve dönüştürmek için çok zaman harcar. İş analistleri genellikle anlamsal modellerle çalışır ve etki alanı bilgilerini ve iş mantığını Power BI ölçülerine kodlar. Öte yandan, veri bilimcileri aynı verilerle çalışabilir, ancak genellikle farklı bir kod ortamında veya dilde çalışır.

Anlam bağlantısı (önizleme), veri bilim insanlarının SemPy Python kitaplığı aracılığıyla Microsoft Fabric deneyiminde Power BI anlam modelleri ile Synapse Veri Bilimi arasında bağlantı kurmasına olanak tanır. SemPy, kullanıcılar anlam modellerinde çeşitli dönüşümler gerçekleştirirken veri semantiğini yakalayıp kullanarak veri analizini basitleştirir. Veri bilimciler anlamsal bağlantıdan yararlanarak şunları yapabilir:

  • kodlarında iş mantığını ve etki alanı bilgisini yeniden uygulama gereğinden kaçının
  • Kodunda Power BI ölçülerine kolayca erişme ve bunları kullanma
  • semantik işlevler gibi yeni deneyimleri desteklemek için semantiği kullanma
  • veriler arasındaki işlevsel bağımlılıkları ve ilişkileri keşfetme ve doğrulama

Kuruluşlar, SemPy'nin kullanımıyla şunları görmeyi bekleyebilir:

  • aynı veri kümelerinde çalışan ekipler arasında daha yüksek üretkenlik ve daha hızlı işbirliği
  • iş zekası ve yapay zeka ekipleri arasında daha fazla çapraz işbirliği
  • yeni bir modele veya veri kümesine ekleme yaparken azaltılmış belirsizlik ve daha kolay öğrenme eğrisi

Anlamsal bağlantı hakkında daha fazla bilgi için bkz . Semantik bağlantı nedir (önizleme)?.