Share via


Basit İstatistikleri Hesaplama

Önemli

Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.

1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.

ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.

Seçili veri kümesi sütunları için belirtilen özet istatistiklerini hesaplar

Kategori: İstatistiksel İşlevler

Not

Uygulama: Machine Learning Studio (yalnızca klasik)

Benzer sürükle ve bırak modülleri tasarımcıda da Azure Machine Learning kullanılabilir.

Modüle genel bakış

Bu makalede, Machine Learning Studio'da (klasik) İşlem Temel İstatistikleri modülünün nasıl kullanacağız? veri kümeniz için ortalama, standart sapma ve seçili sütunların her biri için değer aralığı gibi temel istatistikleri listeleye bir özet raporu oluşturma açıklanmaktadır.

Bu rapor verilerin merkezi eğilimini, dağılımını ve şeklini analiz etmek için kullanışlıdır.

İşlem Temel İstatistiklerini yapılandırma

  1. Denemenize İşlem Temel İstatistikleri modülünü ekleyin. Bu modülü Machine Learning Studio(klasik) Machine Learning İstatistiksel İşlevler kategorisinde bulabilirsiniz.

  2. Bağlan analiz etmek istediğiniz sütunları içeren bir veri kümesine tıklayın.

  3. Yöntem açılan listesine tıklayın ve her sütun için hesaplamak istediğiniz değer türünü seçin.

    Kullanılabilir istatistiklerin tam listesi ve bunların anlamı için Desteklenen İstatistikler bölümüne bakın.

  4. Varsayılan olarak, Yöntem açılan listesinde seçtiğiniz değer, veri kümesinde sayısal veri türüne sahip tüm sütunlar için hesaplanır. Herhangi bir sütunda değerin hesaplanmasına engel olan değerler varsa bir hata oluşturulur ve rapor oluşturulmaz.

    Bu hatayı önlemek için sütun seçiciyi kullanarak rapor istediğiniz sayısal sütunları seçin. Seçtiğiniz tüm sütunlar sayısal olmalıdır.

  5. Denemeyi çalıştırın.

Sonuçlar

Oluşturulan rapor, her sütunun adını ve hesaplanan istatistiği içerir. Örneğin, aşağıdaki tabloda mpg sütunu için oluşturulan istatistikler yer alır.

DeviationSquared(mpg) Max(mpg) Min(mpg)
9674.312 25.21951 13

İpucu

İşlem Temel İstatistiklerini her çalıştırarak, seçilen sütunların her biri için yalnızca tek bir özet istatistiği oluşturur. Ancak, yukarıdaki örnekte olduğu gibisonuçları tek bir tabloda birleştirmek için Sütun Ekle veya Satır Ekle modüllerini kullanabilirsiniz.

Desteklenen istatistikler

Bu modül aşağıdaki standart açıklayıcı istatistikleri destekler.

Sapma karesi

Sütun değerlerinin karekök sapmasını hesaplar. Karelerin toplamı olarak da bilinir.

Sapma karesi, değerlerin ortalamadan ne kadar dağıldığına bir ölçüdür.

Geometrik ortalama

Sütun değerlerinin geometrik ortalamalarını hesaplar.

Geometrik ortalama, bir sayı kümesinde merkezi eğilimi ölçmek için kullanılabilir. Aritmetik ortalamaya kıyasla, az sayıda aşırı değerden daha az etkilenir. Ayrıca farklı ölçeklerde ölçümleri karşılaştırmak için de kullanılabilir çünkü karşılaştıran sayıların ölçeklerini etkili bir şekilde normalleştirmektedir. Geometrik ortalamalar bazen bileşik yıllık büyüme oranlarını tahmin etmek için kullanılır.

Coğrafi olarak eşdeğer Excel GEOMEAN işlevidir.

Armonik ortalama

Sütun değerlerinin armonik ortalama değerini hesaplar.

Armonik ortalamayı hesaplamak için tüm değerler karşılıklı değerlerine dönüştürülür ve ardından bu değerlerin ortalama değeri alınır. Armonik ortalama, bu ortalamanın karşılıklıdır. Sütun değerleri pozitifse büyük sayılar daha küçük sayılardan küçüktür.

Armonik ortalama her zaman geometrik ortalamadan küçük olur ve aritmetik ortalamadan da küçük olur. Armonik ortalama hız (zaman içinde mesafe) veya çeyrek başına satış gibi oranları temsil eden ortalama değişkenler için yararlıdır.

Bu işlevin eşdeğeri HARMEAN Excel işlevidir.

Interquartile distance

Sütun değerlerinin ilk ve son dörttebirlik değerlerinin interquartile farkını hesaplar. Dörtte bir aralık olarak da adlandırılan. Dörttebirlik iki sayı arasında düştüğünde, dörtte bir değer kesmenin her iki tarafındaki iki değerin ortalamasıdır.

Dörtte bir değer, değer sütununu eşit sayıda değere sahip dört gruba böler. Bu nedenle, değerlerin dörtte biri 25. yüzdebirlik değerden küçük veya buna eşittir. Değerlerin üçte üçü, 75. yüzdebirlik değerden küçük veya bu değere eşittir. Dörtte birlik aralığını gözden geçirerek veri değerlerinin ne kadar yaygın olduğu hakkında bir fikir elde edersiniz.

K-th central moment

Sütun değerleri için K-th central moment değerini hesaplar.

K-th central moment'i hesaplarken Order (Sipariş) ( k) değerini de belirtmeniz gerekir. k değeri 0 ile izin verilen herhangi bir tamsayı değeri arasında değişebilir, ancak yüksek sıra değerleri genellikle anlamlı değildir.

Genellikle açıklayıcı istatistiklerde bir nokta kümesi şeklini açıklayan bir ölçüdür. Merkezi anlar ortalamayla ilgili anları ifade etmek için kullanılır çünkü genellikle dağılımın şekli hakkında daha iyi bilgi sağlarlar. 2 sırası genellikle varyansı temsil eder; için 4 sırası kullanılır. İlk sıra an, ortalamadır. Bu nedenle tüm anların koleksiyonu, sütundaki değerlerin dağılımını benzersiz bir şekilde açıklar.

En yüksek değer

Sütunundaki en büyük değeri bulur.

Ortalama

Sütun değerlerinin aritmetik ortalama değerini hesaplar.

Excel average işlevidir.

Ortalama sapma

Sütun değerleri için ortalama mutlak sapmayı hesaplar.

Başka bir ifadeyle, ortalama sütun için hesaplanır ve sütundaki her değer için sapma hesaplanır. Tek tek sapma değerlerinin mutlak değerlerinin ortalaması, ortalama sapmadır.

Bu istatistik, sayı sütunlarının ortalamadan ne kadar yayılacaklarını gösterir.

Ortanca

Sütun değerlerinin ortası döndürür.

Ortadaki sayı, sayı sütunlarının ortasındaki sayıdır. Sütunda çift sayıda sayı varsa ortadaki iki say ın ortalaması orta gelir.

Ortak, ortalama ve mod ilebirlikte merkezi eğilimi ölçüen üç istatistiktir. Değerler ortalamanın etrafında simetrikse üç sayı yaklaşık olarak aynı olur. Ancak ortak, ortalamadan daha fazla outliers için daha sağlamdır.

Ortaç sapması

Sütunun ortası sapmayı hesaplar.

Başka bir ifadeyle, sütun için ortadaki ortak hesaplanır ve sütundaki her değer için sapma hesaplanır. Tek tek sapma değerlerinin mutlak değerlerinin ortası alınır.

Ortal mutlak sapma, MAD olarak da bilinir ve bir sayı örneğinin değişkenliğini açıklamak için kullanılır. MAD, sayı sütununu ortalamadan nasıl yaymanızı söyler.

Min

Sütun değerlerinin minimum değerini döndürür.

Mod

Sütunun tüm modlarını bulur.

Mod, sütunda en çok görünen değerdir. Birkaç değer aynı sayıda görünürse sütunda birden çok mod olabilir.

Merkezi eğilim ölçüsü olarak mod, ortalamadan daha fazla outliers için daha sağlamdır ve nominal verilerle de kullanılabilir.

Popülasyon standart sapması

Sütun değerleri için popülasyon standart sapmasını hesaplar.

Bu istatistik, sütun değerlerinin popülasyon tamamını temsil eder. Verileriniz popülasyonun yalnızca bir örneği ise, Örnek standart sapmayı kullanarak standart sapmayı hesaplamanız gerekir. Ancak büyük veri kümelerine ilişkin iki istatistik yaklaşık olarak eşit değerler verir.

Standart sapma, sütun varyansı için karekök olarak hesaplanır. Bu istatistik, sütundaki değişkenlik miktarını yakalar.

Popülasyon varyansı

Sütun değerleri için popülasyon varyansını hesaplar.

Varyans, bir sayı kümesine ne kadar yayılacaklarını ölçür. Varyans sıfır ise tüm sayılar aynıdır.

Bu istatistik, değer sütunlarının popülasyonu temsil ettiğini varsaymaktadır. Verileriniz yalnızca değerlerin bir örneğini içeriyorsa, Örnek varyansı kullanarak varyansı hesaplamanız gerekir.

eşdeğer işlevi Excel işlevidirVAR.P.

Ürün

Sütunun öğelerinin ürününü hesaplar.

Ürünü almak için sütundaki tüm sayıları birden çok kez kullanabilirsiniz. Sonuç kendi içinde açıklayıcı bir istatistik olarak kullanışlı değildir, ancak işlevi diğer çeşitli hesaplamalar için yararlıdır.

Aralık

Sütun değerlerinin aralığını hesaplar. Aralık, maksimum değer eksi minimum değer olarak tanımlanır

Örnek örnek

Sütun değerleri için örnek örneği hesaplar.

Genellikle değerlerin dağılımının şekli açıklandığından, değerlerin dağılımının normal dağılımla karşılaştırıldığında ne kadar yoğun veya düz olduğu açıklandı.

  • Normal dağılımın 0'lık bir dağılımı vardır.

  • Yüksek olasılık değerleri, olasılık kütlesinin bir tepe etrafında veya dağılımın kuyruğunda yoğun olduğunu gösterir.

  • Negatif negatif değerler görece düz bir dağılımı gösterir.

Örnek çarpıklık

Sütun değerleri için örnek çarpıklığı hesaplar.

Eğriltme, değerlerin toplu olarak merkezde, sola kaydırarak mı yoksa sağa kaydırarak mı olduğunu açıklar. İki dağılım aynı ortalama ve standart sapmaya sahip olabilir, ancak çok farklı şekilde şekillendirildi. Şekli karakterize etmek için çarpıklık ve her zaman kullanabilirsiniz.

  • Negatif eğriltme değerleri dağılımın sola doğru çarpıtıldı olduğu anlamına gelir.

  • 0 normal dağıtımı ifade ediyor.

  • Pozitif çarpıklık değerleri dağılımın sağa doğru çarpıtıldı olduğu anlamına gelir.

Örnek standart sapma

Sütun değerleri için örnek standart sapmayı hesaplar.

Örneğin standart sapması, sütundaki değerlerin ortalamadan nasıl yayılacaklarını ölçür. Kümede yer alan verilerin değerleriyle ortalama arasındaki ortalama mesafeyi temsil eder.

Bu istatistik, sütun değerlerinin popülasyon örneğini temsil eder. Verileriniz popülasyonun tamamını temsil ediyorsa, Popülasyon standart sapmasını kullanarak standart sapmayı hesaplamanız gerekir.

Eşdeğer işlev Excel ST'dır. DEV.S.

Örnek varyansı

Sütun değerleri için örnek varyansı hesaplar.

Bu yöntem, sütun değerlerinin popülasyon örneğini temsil eder. Sütun popülasyonun tamamını içeriyorsa Population standart varyansı kullansanız iyi bir uygulamadır.

Eşdeğer Excel işlevi VAR.S'dir.

Sum

Sütun değerlerinin toplamını hesaplar.

Örnekler

Aşağıdaki denemeler, Azure Yapay Zeka Galerisi tüm veri kümesi için açıklayıcı istatistikler içeren bir özet raporu nasıl oluşturabilirsiniz? Özet raporu yalnızca genel istatistikleri içerir; ancak, bunu bir veri kümesi olarak kaydedebilir ve ardından Basit İstatistikleri Hesaplama'daki seçenekleri kullanarak daha ayrıntılı istatistikler ebilirsiniz.

Teknik notlar

Bu bölümde uygulama ayrıntıları, ipuçları ve sık sorulan soruların yanıtları yer almaktadır.

İpucu

İşlem Temel İstatistikleri modülü kullanılırken aşağıdaki koşullar karşılandı :

  • Seçilen istatistiği hesaplamak için yeterli sayıda veri noktası (satır) olmalıdır. Örneğin, Örnek standart sapmayı hesaplamak için en az iki veri noktası gerekir; aksi takdirde, sonuç NaN olur.
  • Giriş sütunları sayısal veya Boole olmalıdır.

Varsayılan olarak tüm sayısal sütunlar seçilir. Ancak, herhangi bir sayısal sütun kategorik olarak işaretlenirse şu hatayı alabilirsiniz: " Hata 0056: <> Sütun adı olan sütun izin verilen bir kategoride değil." Hatayı düzeltmek için Meta Verileri Düzenle modülünün bir örneğini ekleyin, sorunu içeren sütunu seçin ve Kategorik kaldır seçeneğini kullanın.

Uygulama ayrıntıları

Boole sütunları aşağıdaki gibi işlenir:

  • MIN mantıksal AND olarak hesaplanır.

  • MAX, mantıksal OR olarak hesaplanır.

  • RANGE, sütundaki benzersiz değerlerin sayısının 2'ye eşit olup olmadığını denetler.

  • Eksik değerler yoksayılır.

  • Kayan nokta hesaplamaları gerektiren istatistikler için True = 1.0 ve False = 0.0

Beklenen girişler

Ad Tür Description
Veri kümesi Veri Tablosu Giriş veri kümesi

Modül parametreleri

Name Aralık Tür Varsayılan Description
Yöntem Liste Temel istatistik yöntemi Hesaplamalarda kullanmak üzere istatistiksel bir yöntem seçer. Değer listesi için bkz. Kullanım bölümü.
Sütun kümesi herhangi biri ColumnSelection NumericAll İstatistik hesaplaması için sütunları seçer
Sipariş >=1 Tamsayı 3 Merkezi an sırası için bir değer belirtir (yalnızca kth central moment için kullanılır)

Çıktı

Ad Tür Description
Sonuç veri kümesi Veri Tablosu Çıktı veri kümesi

Özel durumlar

Özel durum Description
Hata 0017 Belirtilen bir veya daha fazla sütun geçerli modül tarafından desteklenmeyen bir türe sahipse özel durum oluşur.

Studio (klasik) modüllerine özgü hataların listesi için bkz. Machine Learning kodları.

API özel durumlarının listesi için bkz. Machine Learning REST API Kodları.

Ayrıca bkz.

İstatistiksel İşlevler
Ilköğretim
Verileri Özetleme
A-Z Modül Listesi