Spark DataFrame'lerde Data Wrangler kullanma (Önizleme)

Keşif veri analizi için not defteri tabanlı bir araç olan Data Wrangler artık Hem Spark DataFrame'leri hem de pandas DataFrame'leri destekleyerek Python koduna ek olarak PySpark kodu da oluşturuyor. Pandas DataFrames'i keşfetmeyi ve dönüştürmeyi kapsayan Data Wrangler'a genel bir genel bakış için ana öğreticiye bakın. Aşağıdaki öğreticide, Spark DataFrame'leri keşfetmek ve dönüştürmek için Data Wrangler'ın nasıl kullanılacağı gösterilmektedir.

Önemli

Bu özellik önizleme aşamasındadır.

Önkoşullar

Spark DataFrame ile Data Wrangler'ı başlatma

Kullanıcılar Spark DataFrames'i Data Wrangler'da doğrudan bir Microsoft Fabric not defterinden, pandas DataFrames'in görüntülendiği aynı açılan komut istemine giderek açabilir. Etkin pandas değişkenleri listesinin altındaki açılan listede etkin Spark DataFrame'lerin listesi görüntülenir.

Sonraki kod parçacığı, pandas Data Wrangler öğreticisinde kullanılan örnek verileri içeren bir Spark DataFrame oluşturur:

import pandas as pd

# Read a CSV into a Spark DataFrame
df = spark.createDataFrame(pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv"))
display(df)

Not defteri şeridi "Veri" sekmesinin altında, düzenleme için kullanılabilen etkin DataFrame'lere göz atmak için Veri Wrangler açılan istemini kullanın. Data Wrangler'da açmak istediğiniz dosyayı seçin.

İpucu

Not defteri çekirdeği meşgulken veri Wrangler açılamaz. Yürütülen bir hücre, Data Wrangler'ın başlatılabilmesi için önce yürütülmesini tamamlamalıdır.

Screenshot showing a Fabric notebook with the Data Wrangler dropdown prompt.

Özel örnekler seçme

Data Wrangler, performans nedenleriyle Spark DataFrames'i otomatik olarak pandas örneklerine dönüştürür. Ancak, araç tarafından oluşturulan tüm kod, not defterine geri aktarıldığında nihai olarak PySpark'a çevrilir. Tüm pandas DataFrame'lerde olduğu gibi, Veri Wrangler açılan menüsünden "Özel örnek seç" seçeneğini belirleyerek varsayılan örneği özelleştirebilirsiniz. Bunu yaptığınızda, istenen örneğin boyutunu (satır sayısı) ve örnekleme yöntemini (ilk kayıtlar, son kayıtlar veya rastgele bir küme) belirtmek için seçenekler içeren bir açılır pencere başlatılır.

Screenshot showing the Data Wrangler dropdown prompt with the custom sample option outlined.

Screenshot showing the Data Wrangler custom sample prompt.

Özet istatistikleri görüntüleme

Data Wrangler yüklendiğinde, önizleme kılavuzunun üzerindeki bilgilendirme başlığı Spark DataFrame'lerin geçici olarak pandas örneklerine dönüştürüldüğünü ancak sonuçta oluşturulan tüm kodların PySpark'a dönüştürüldüğünü anımsatır. Spark DataFrame'lerde Data Wrangler kullanmak, pandas DataFrames'te kullanmaktan farklı değildir. Özet panelinde açıklayıcı bir genel bakış, örneğin boyutları, eksik değerleri ve daha fazlası hakkında bilgi görüntüler. Data Wrangler kılavuzunda herhangi bir sütunun seçilmesi, Özet panelinden bu sütunla ilgili açıklayıcı istatistikleri güncelleştirmesini ve görüntülemesini ister. Her sütunla ilgili hızlı içgörüler, üst bilgisinde de kullanılabilir.

İpucu

Sütuna özgü istatistikler ve görseller (hem Özet panelinde hem de sütun üst bilgilerinde) sütun veri türüne bağlıdır. Örneğin, bir sayısal sütunun binned histogramı, yalnızca sütun bir sayısal tür olarak yayınlanmışsa sütun üst bilgisinde görünür. En doğru ekran için sütun türlerini yeniden kaydetmek için İşlemler panelini kullanın.

Screenshot showing the Data Wrangler display grid and Summary panel.

Veri temizleme işlemlerine göz atma

Veri temizleme adımlarının aranabilir bir listesi İşlemler panelinde bulunabilir. (Aynı işlemlerin daha küçük bir seçimi, her sütunun bağlam menüsünde de kullanılabilir.) İşlemler panelinden bir veri temizleme adımı seçildiğinde, adımı tamamlamak için gerekli parametrelerle birlikte bir hedef sütun veya sütun sağlamanız istenir. Örneğin, bir sütunu sayısal olarak ölçeklendirme istemi için yeni bir değer aralığı gerekir.

Screenshot showing the Data Wrangler Operations panel.

İşlemleri önizleme ve uygulama

Seçili işlemin sonuçları, Veri Wrangler görüntüleme kılavuzunda otomatik olarak önizlemeye eklenir ve ilgili kod kılavuzun altındaki panelde otomatik olarak görüntülenir. Önizlenen kodu işlemek için her iki yerde de "Uygula"yı seçin. Önizlenen koddan kurtulmak ve yeni bir işlem denemek için "At"ı seçin.

Screenshot showing a Data Wrangler operation in progress.

Bir işlem uygulandıktan sonra, Data Wrangler görüntüleme kılavuzu ve özet istatistikleri sonuçları yansıtacak şekilde güncelleştirilir. Kod, Temizleme adımları panelinde bulunan çalışan işlenen işlemler listesinde görünür.

Screenshot showing an applied Data Wrangler operation.

İpucu

En son uygulanan adımı, yanındaki çöp kutusu simgesiyle istediğiniz zaman geri alabilirsiniz. Bu simge, imlecinizi Temizleme adımları panelinde bu adımın üzerine getirdiğinizde görünür.

Screenshot showing a Data Wrangler operation that can be undone.

Aşağıdaki tabloda, Data Wrangler'ın Şu anda Spark DataFrames için desteklediği işlemler özetlemektedir:

İşlem Açıklama
Sırala Sütunu artan veya azalan düzende sıralama
Filtre Satırları bir veya daha fazla koşula göre filtreleme
Tek erişimli kodlama Var olan bir sütundaki her benzersiz değer için, satır başına bu değerlerin varlığını veya yokluğunu gösteren yeni sütunlar oluşturun
Sınırlayıcı ile tek etkin kodlama Sınırlayıcı kullanarak kategorik verileri bölme ve tek erişimli kodlama
Sütun türünü değiştirme Sütunun veri türünü değiştirme
Sütunu bırak Bir veya daha fazla sütunu silme
Sütun seç Tutulacak bir veya daha fazla sütun seçin ve kalan sütunları silin
Sütunu yeniden adlandır Sütunu yeniden adlandırma
Eksik değerleri bırakma Eksik değerleri olan satırları kaldırma
Yinelenen satırları bırakma Yinelenen değerler içeren tüm satırları bir veya daha fazla sütuna bırakın
Eksik değerleri doldurma Hücreleri eksik değerlerle yeni bir değerle değiştirme
Bulma ve değiştirme Hücreleri tam olarak eşleşen bir desenle değiştirme
Sütuna ve toplamaya göre gruplandırma Sütun değerlerine göre gruplandırma ve sonuçları toplama
Beyaz alanı şeritle Metnin başından ve sonundan boşluk kaldırma
Metni bölme Bir sütunu kullanıcı tanımlı sınırlayıcıya göre birkaç sütuna bölme
Metni küçük harfe dönüştürme Metni küçük harfe dönüştürme
Metni büyük harfe dönüştürme Metni BÜYÜK HARFe dönüştürme
En düşük/en yüksek değerleri ölçeklendirme Sayısal sütunu en küçük ve en büyük değer arasında ölçeklendirme
Hızlı Doldurma Mevcut bir sütundan türetilen örnekleri temel alarak otomatik olarak yeni bir sütun oluşturma

Kodu kaydetme ve dışarı aktarma

Data Wrangler görüntü kılavuzunun üzerindeki araç çubuğu, oluşturulan kodu kaydetmek için seçenekler sağlar. Kodu panoya kopyalayabilir veya işlev olarak not defterine aktarabilirsiniz. Spark DataFrames için pandas örneğinde oluşturulan tüm kod, not defterine geri dönmeden önce PySpark'a çevrilir. Data Wrangler kapanmadan önce, araç çevrilmiş PySpark kodunun önizlemesini görüntüler ve ara pandas kodunu dışarı aktarma seçeneği de sağlar.

İpucu

Data Wrangler tarafından oluşturulan kod, yeni hücreyi el ile çalıştırana kadar uygulanmaz ve özgün DataFrame'inizin üzerine yazılmaz.

Screenshot showing the options to export code in Data Wrangler.

Screenshot showing the PySpark preview in the export code prompt in Data Wrangler.

Screenshot showing the code generated by Data Wrangler back in the notebook.

  • Data Wrangler'a genel bir bakış elde etmek için bu yardımcı makaleye bakın.
  • VS Code'da Veri Wrangler'ı denemek için bkz . VS Code'da Veri Wrangler.