Spark DataFrame'lerde Data Wrangler'ı kullanma

Makale
08/14/2024

Keşif veri analizi için not defteri tabanlı bir araç olan Data Wrangler artık hem Spark DataFrame'leri hem de pandas DataFrame'leri destekliyor. Python koduna ek olarak PySpark kodu oluşturur. Pandas DataFrames'i keşfetmeyi ve dönüştürmeyi kapsayan Data Wrangler'a genel bir genel bakış için ana öğreticiyi ziyaret edin. Bu öğreticide, Spark DataFrame'leri keşfetmek ve dönüştürmek için Data Wrangler'ın nasıl kullanılacağı gösterilmektedir.

Önkoşullar

Microsoft Fabric aboneliği alın. Alternatif olarak, ücretsiz bir Microsoft Fabric deneme sürümüne kaydolun.
Microsoft Fabric'te oturum açın.
Fabric'e geçmek için giriş sayfanızın sol alt tarafındaki deneyim değiştiriciyi kullanın.

Sınırlamalar

Özel kod işlemleri şu anda yalnızca pandas DataFrames için desteklenmektedir.
Data Wrangler ekranı büyük monitörlerde en iyi şekilde çalışır, ancak daha küçük ekranları barındırmak için arabirimin farklı bölümlerini simge durumuna küçültebilir veya gizleyebilirsiniz.

Spark DataFrame ile Data Wrangler'ı başlatma

Kullanıcılar Spark DataFrames'i Data Wrangler'da doğrudan bir Microsoft Fabric not defterinden, pandas DataFrames'in görüntülendiği aynı açılan komut istemine giderek açabilir. Etkin pandas değişkenleri listesinin altındaki açılan listede etkin Spark DataFrames listesi görüntülenir.

Bu kod parçacığı, pandas Data Wrangler öğreticisinde kullanılan örnek verileri içeren bir Spark DataFrame oluşturur:

import pandas as pd

# Read a CSV into a Spark DataFrame
sdf = spark.createDataFrame(pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv"))
display(sdf)

Not defteri şeridindeki "Giriş" sekmesinde, düzenleme için kullanılabilen etkin DataFrame'lere göz atmak için Veri Wrangler açılan istemini kullanın. Data Wrangler'da açmak istediğiniz dosyayı seçin.

İpucu

Not defteri çekirdeği meşgulken veri Wrangler açılamaz. Bu ekran görüntüsünde gösterildiği gibi, yürütülen bir hücreNin Data Wrangler'ın başlatılabilmesi için önce yürütülmesini tamamlaması gerekir:

Özel örnekler seçme

Data Wrangler, performans nedenleriyle Spark DataFrames'i otomatik olarak pandas örneklerine dönüştürür. Ancak, aracın oluşturduğu tüm kod, not defterine geri aktarıldığında nihai olarak PySpark'a çevrilir. Tüm pandas DataFrame'lerde olduğu gibi varsayılan örneği özelleştirebilirsiniz. Data Wrangler ile herhangi bir etkin DataFrame'in özel örneğini açmak için, bu ekran görüntüsünde gösterildiği gibi açılan listeden "Özel örnek seç"i seçin:

Bu, bu ekran görüntüsünde gösterildiği gibi istenen örneğin boyutunu (satır sayısı) ve örnekleme yöntemini (ilk kayıtlar, son kayıtlar veya rastgele bir küme) belirtme seçeneklerini içeren bir açılır pencere başlatır:

Özet istatistikleri görüntüleme

Data Wrangler yüklendiğinde, önizleme kılavuzunun üzerinde bir bilgilendirme başlığı görüntüler. Bu başlıkta Spark DataFrames'in geçici olarak pandas örneklerine dönüştürüldüğü, ancak sonuçta oluşturulan tüm kodların PySpark'a dönüştürüldüğü açıklanmaktadır. Bundan sonra, Spark DataFrames'te Data Wrangler kullanmak pandas DataFrames'te kullanmaktan farklı değildir. "Özet" panelinde açıklayıcı bir genel bakış, örneğin boyutları, eksik değerleri ve daha fazlası hakkındaki bilgileri görüntüler. Data Wrangler kılavuzundaki herhangi bir sütunun seçilmesi, "Özet" panelinden bu sütunla ilgili açıklayıcı istatistikleri güncelleştirmesini ve görüntülemesini ister. Her sütunla ilgili hızlı içgörüler, üst bilgisinde de kullanılabilir.

İpucu

Sütuna özgü istatistikler ve görseller (hem "Özet" panelinde hem de sütun üst bilgilerinde) sütun veri türüne bağlıdır. Örneğin, bu ekran görüntüsünde gösterildiği gibi, sütun başlığında yalnızca sütun sayısal tür olarak yayınlanmışsa, sayısal sütunun binned histogramı görüntülenir:

Veri temizleme işlemlerine göz atma

Veri temizleme adımlarının aranabilir bir listesi "İşlemler" panelinde bulunabilir. "İşlemler" panelinden bir veri temizleme adımının seçilmesi, adımı tamamlamak için gerekli parametrelerle birlikte bir hedef sütun veya sütun sağlamanız istenir. Örneğin, bir sütunu sayısal olarak ölçeklendirme istemi, bu ekran görüntüsünde gösterildiği gibi yeni bir değer aralığı gerektirir:

İpucu

Bu ekran görüntüsünde gösterildiği gibi, her sütun üst bilgisinin menüsünden daha küçük bir işlem seçimi uygulayabilirsiniz:

İşlemleri önizleme ve uygulama

Veri Wrangler görüntüleme kılavuzu, seçili işlemin sonuçlarını otomatik olarak önizlemede görüntüler ve ilgili kod kılavuzun altındaki panelde otomatik olarak görüntülenir. Önizlenen kodu işlemek için her iki yerde de "Uygula"yı seçin. Önizlenen kodu silmek ve yeni bir işlem denemek için bu ekran görüntüsünde gösterildiği gibi "At"ı seçin:

Bir işlem uygulandıktan sonra, Data Wrangler görüntüleme kılavuzu ve özet istatistikleri sonuçları yansıtacak şekilde güncelleştirilir. Kod, bu ekran görüntüsünde gösterildiği gibi "Temizleme adımları" panelinde bulunan çalışan işlem listesinde görünür:

İpucu

En son uygulanan adımı istediğiniz zaman geri alabilirsiniz. "Temizleme adımları" panelinde, imlecinizi bu ekran görüntüsünde gösterildiği gibi en son uygulanan adımın üzerine getirdiğinizde bir çöp kutusu simgesi görüntülenir:

Bu tablo, Data Wrangler'ın şu anda desteklediği işlemleri özetler:

İşlem	Açıklama
Sırala	Sütunu artan veya azalan düzende sıralama
Filtre	Satırları bir veya daha fazla koşula göre filtreleme
Tek erişimli kodlama	Var olan bir sütundaki her benzersiz değer için, satır başına bu değerlerin varlığını veya yokluğunu gösteren yeni sütunlar oluşturun
Sınırlayıcı ile tek etkin kodlama	Sınırlayıcı kullanarak kategorik verileri bölme ve tek erişimli kodlama
Sütun türünü değiştirme	Sütunun veri türünü değiştirme
Sütunu bırak	Bir veya daha fazla sütunu silme
Sütun seç	Tutulacak bir veya daha fazla sütun seçin ve kalan sütunları silin
Sütunu yeniden adlandır	Sütunu yeniden adlandırma
Eksik değerleri bırakma	Eksik değerleri olan satırları kaldırma
Yinelenen satırları bırakma	Yinelenen değerler içeren tüm satırları bir veya daha fazla sütuna bırakın
Eksik değerleri doldurma	Hücreleri eksik değerlerle yeni bir değerle değiştirme
Bulma ve değiştirme	Hücreleri tam olarak eşleşen bir desenle değiştirme
Sütuna ve toplamaya göre gruplandırma	Sütun değerlerine göre gruplandırma ve sonuçları toplama
Beyaz alanı şeritle	Metnin başından ve sonundan boşluk kaldırma
Metni bölme	Bir sütunu kullanıcı tanımlı sınırlayıcıya göre birkaç sütuna bölme
Metni küçük harfe dönüştürme	Metni küçük harfe dönüştürme
Metni büyük harfe dönüştürme	Metni BÜYÜK HARFe dönüştürme
En düşük/en yüksek değerleri ölçeklendirme	Sayısal sütunu en küçük ve en büyük değer arasında ölçeklendirme
Hızlı Doldurma	Mevcut bir sütundan türetilen örnekleri temel alarak otomatik olarak yeni bir sütun oluşturma

Ekranınızı değiştirme

İstediğiniz zaman, Veri Wrangler görüntü kılavuzunun üzerinde bulunan araç çubuğundaki "Görünümler" sekmesiyle arabirimi özelleştirebilirsiniz. Bu, bu ekran görüntüsünde gösterildiği gibi tercihlerinize ve ekran boyutuna göre farklı bölmeleri gizleyebilir veya gösterebilir:

Kodu kaydetme ve dışarı aktarma

Data Wrangler görüntü kılavuzunun üzerindeki araç çubuğu, oluşturulan kodu kaydetmek için seçenekler sağlar. Kodu panoya kopyalayabilir veya işlev olarak not defterine aktarabilirsiniz. Spark DataFrames için pandas örneğinde oluşturulan tüm kod, not defterine geri dönmeden önce PySpark'a çevrilir. Data Wrangler kapanmadan önce, araç çevrilmiş PySpark kodunun önizlemesini görüntüler ve ara pandas kodunu dışarı aktarma seçeneği de sağlar.

İpucu

Data Wrangler, yalnızca yeni hücreyi el ile çalıştırdığınızda uygulanan kod oluşturur ve bu ekran görüntüsünde gösterildiği gibi özgün DataFrame'inizin üzerine yazmaz:

Kod, bu ekran görüntüsünde gösterildiği gibi PySpark'a dönüştürülür:

Bu ekran görüntüsünde gösterildiği gibi dışarı aktarılan kodu çalıştırabilirsiniz:

Data Wrangler'a genel bakış için bu yardımcı makaleyi ziyaret edin
Visual Studio Code'da Data Wrangler'ı denemek için VS Code'da Data Wrangler'a gidin
İhtiyacınız olan bir özelliği kaçırdık mı? Bizimle paylaşın. Doku Fikirleri forumu'nda önerin

Aracılığıyla paylaş

Spark DataFrame'lerde Data Wrangler'ı kullanma

Önkoşullar

Sınırlamalar

Spark DataFrame ile Data Wrangler'ı başlatma

Özel örnekler seçme

Özet istatistikleri görüntüleme

Veri temizleme işlemlerine göz atma

İşlemleri önizleme ve uygulama

Ekranınızı değiştirme

Kodu kaydetme ve dışarı aktarma

Geri Bildirim

Ek kaynaklar

Aracılığıyla paylaş

Spark DataFrame'lerde Data Wrangler'ı kullanma

Önkoşullar

Sınırlamalar

Spark DataFrame ile Data Wrangler'ı başlatma

Özel örnekler seçme

Özet istatistikleri görüntüleme

Veri temizleme işlemlerine göz atma

İşlemleri önizleme ve uygulama

Ekranınızı değiştirme

Kodu kaydetme ve dışarı aktarma

İlgili içerik

Geri Bildirim

Ek kaynaklar