Basit İstatistikleri Hesaplama
Önemli
Machine Learning Stüdyosu (klasik) desteği 31 Ağustos 2024'te sona erecektir. Bu tarihe kadar Azure Machine Learning'e geçmenizi öneririz.
1 Aralık 2021'den başlayarak artık yeni Machine Learning Stüdyosu (klasik) kaynakları oluşturamayacaksınız. 31 Ağustos 2024'e kadar mevcut Machine Learning Stüdyosu (klasik) kaynaklarını kullanmaya devam edebilirsiniz.
- Makine öğrenmesi projelerini ML Studio'dan (klasik) Azure Machine Learning.
- Daha fazla bilgi Azure Machine Learning.
ML Stüdyosu (klasik) belgeleri kullanımdan kaldırılacak ve gelecekte güncelleştirilmeyecektir.
Seçili veri kümesi sütunları için belirtilen özet istatistiklerini hesaplar
Kategori: İstatistiksel İşlevler
Not
Uygulama: Machine Learning Studio (yalnızca klasik)
Benzer sürükle ve bırak modülleri tasarımcıda da Azure Machine Learning kullanılabilir.
Modüle genel bakış
Bu makalede, Machine Learning Studio'da (klasik) İşlem Temel İstatistikleri modülünün nasıl kullanacağız? veri kümeniz için ortalama, standart sapma ve seçili sütunların her biri için değer aralığı gibi temel istatistikleri listeleye bir özet raporu oluşturma açıklanmaktadır.
Bu rapor verilerin merkezi eğilimini, dağılımını ve şeklini analiz etmek için kullanışlıdır.
İşlem Temel İstatistiklerini yapılandırma
Denemenize İşlem Temel İstatistikleri modülünü ekleyin. Bu modülü Machine Learning Studio(klasik) Machine Learning İstatistiksel İşlevler kategorisinde bulabilirsiniz.
Bağlan analiz etmek istediğiniz sütunları içeren bir veri kümesine tıklayın.
Yöntem açılan listesine tıklayın ve her sütun için hesaplamak istediğiniz değer türünü seçin.
Kullanılabilir istatistiklerin tam listesi ve bunların anlamı için Desteklenen İstatistikler bölümüne bakın.
Varsayılan olarak, Yöntem açılan listesinde seçtiğiniz değer, veri kümesinde sayısal veri türüne sahip tüm sütunlar için hesaplanır. Herhangi bir sütunda değerin hesaplanmasına engel olan değerler varsa bir hata oluşturulur ve rapor oluşturulmaz.
Bu hatayı önlemek için sütun seçiciyi kullanarak rapor istediğiniz sayısal sütunları seçin. Seçtiğiniz tüm sütunlar sayısal olmalıdır.
Denemeyi çalıştırın.
Sonuçlar
Oluşturulan rapor, her sütunun adını ve hesaplanan istatistiği içerir. Örneğin, aşağıdaki tabloda mpg sütunu için oluşturulan istatistikler yer alır.
DeviationSquared(mpg) | Max(mpg) | Min(mpg) |
---|---|---|
9674.312 | 25.21951 | 13 |
İpucu
İşlem Temel İstatistiklerini her çalıştırarak, seçilen sütunların her biri için yalnızca tek bir özet istatistiği oluşturur. Ancak, yukarıdaki örnekte olduğu gibisonuçları tek bir tabloda birleştirmek için Sütun Ekle veya Satır Ekle modüllerini kullanabilirsiniz.
Desteklenen istatistikler
Bu modül aşağıdaki standart açıklayıcı istatistikleri destekler.
Sapma karesi
Sütun değerlerinin karekök sapmasını hesaplar. Karelerin toplamı olarak da bilinir.
Sapma karesi, değerlerin ortalamadan ne kadar dağıldığına bir ölçüdür.
Geometrik ortalama
Sütun değerlerinin geometrik ortalamalarını hesaplar.
Geometrik ortalama, bir sayı kümesinde merkezi eğilimi ölçmek için kullanılabilir. Aritmetik ortalamaya kıyasla, az sayıda aşırı değerden daha az etkilenir. Ayrıca farklı ölçeklerde ölçümleri karşılaştırmak için de kullanılabilir çünkü karşılaştıran sayıların ölçeklerini etkili bir şekilde normalleştirmektedir. Geometrik ortalamalar bazen bileşik yıllık büyüme oranlarını tahmin etmek için kullanılır.
Coğrafi olarak eşdeğer Excel GEOMEAN işlevidir.
Armonik ortalama
Sütun değerlerinin armonik ortalama değerini hesaplar.
Armonik ortalamayı hesaplamak için tüm değerler karşılıklı değerlerine dönüştürülür ve ardından bu değerlerin ortalama değeri alınır. Armonik ortalama, bu ortalamanın karşılıklıdır. Sütun değerleri pozitifse büyük sayılar daha küçük sayılardan küçüktür.
Armonik ortalama her zaman geometrik ortalamadan küçük olur ve aritmetik ortalamadan da küçük olur. Armonik ortalama hız (zaman içinde mesafe) veya çeyrek başına satış gibi oranları temsil eden ortalama değişkenler için yararlıdır.
Bu işlevin eşdeğeri HARMEAN Excel işlevidir.
Interquartile distance
Sütun değerlerinin ilk ve son dörttebirlik değerlerinin interquartile farkını hesaplar. Dörtte bir aralık olarak da adlandırılan. Dörttebirlik iki sayı arasında düştüğünde, dörtte bir değer kesmenin her iki tarafındaki iki değerin ortalamasıdır.
Dörtte bir değer, değer sütununu eşit sayıda değere sahip dört gruba böler. Bu nedenle, değerlerin dörtte biri 25. yüzdebirlik değerden küçük veya buna eşittir. Değerlerin üçte üçü, 75. yüzdebirlik değerden küçük veya bu değere eşittir. Dörtte birlik aralığını gözden geçirerek veri değerlerinin ne kadar yaygın olduğu hakkında bir fikir elde edersiniz.
K-th central moment
Sütun değerleri için K-th central moment değerini hesaplar.
K-th central moment'i hesaplarken Order (Sipariş) ( k) değerini de belirtmeniz gerekir. k değeri 0 ile izin verilen herhangi bir tamsayı değeri arasında değişebilir, ancak yüksek sıra değerleri genellikle anlamlı değildir.
Genellikle açıklayıcı istatistiklerde bir nokta kümesi şeklini açıklayan bir ölçüdür. Merkezi anlar ortalamayla ilgili anları ifade etmek için kullanılır çünkü genellikle dağılımın şekli hakkında daha iyi bilgi sağlarlar. 2 sırası genellikle varyansı temsil eder; için 4 sırası kullanılır. İlk sıra an, ortalamadır. Bu nedenle tüm anların koleksiyonu, sütundaki değerlerin dağılımını benzersiz bir şekilde açıklar.
En yüksek değer
Sütunundaki en büyük değeri bulur.
Ortalama
Sütun değerlerinin aritmetik ortalama değerini hesaplar.
Excel average işlevidir.
Ortalama sapma
Sütun değerleri için ortalama mutlak sapmayı hesaplar.
Başka bir ifadeyle, ortalama sütun için hesaplanır ve sütundaki her değer için sapma hesaplanır. Tek tek sapma değerlerinin mutlak değerlerinin ortalaması, ortalama sapmadır.
Bu istatistik, sayı sütunlarının ortalamadan ne kadar yayılacaklarını gösterir.
Ortanca
Sütun değerlerinin ortası döndürür.
Ortadaki sayı, sayı sütunlarının ortasındaki sayıdır. Sütunda çift sayıda sayı varsa ortadaki iki say ın ortalaması orta gelir.
Ortak, ortalama ve mod ilebirlikte merkezi eğilimi ölçüen üç istatistiktir. Değerler ortalamanın etrafında simetrikse üç sayı yaklaşık olarak aynı olur. Ancak ortak, ortalamadan daha fazla outliers için daha sağlamdır.
Ortaç sapması
Sütunun ortası sapmayı hesaplar.
Başka bir ifadeyle, sütun için ortadaki ortak hesaplanır ve sütundaki her değer için sapma hesaplanır. Tek tek sapma değerlerinin mutlak değerlerinin ortası alınır.
Ortal mutlak sapma, MAD olarak da bilinir ve bir sayı örneğinin değişkenliğini açıklamak için kullanılır. MAD, sayı sütununu ortalamadan nasıl yaymanızı söyler.
Min
Sütun değerlerinin minimum değerini döndürür.
Mod
Sütunun tüm modlarını bulur.
Mod, sütunda en çok görünen değerdir. Birkaç değer aynı sayıda görünürse sütunda birden çok mod olabilir.
Merkezi eğilim ölçüsü olarak mod, ortalamadan daha fazla outliers için daha sağlamdır ve nominal verilerle de kullanılabilir.
Popülasyon standart sapması
Sütun değerleri için popülasyon standart sapmasını hesaplar.
Bu istatistik, sütun değerlerinin popülasyon tamamını temsil eder. Verileriniz popülasyonun yalnızca bir örneği ise, Örnek standart sapmayı kullanarak standart sapmayı hesaplamanız gerekir. Ancak büyük veri kümelerine ilişkin iki istatistik yaklaşık olarak eşit değerler verir.
Standart sapma, sütun varyansı için karekök olarak hesaplanır. Bu istatistik, sütundaki değişkenlik miktarını yakalar.
Popülasyon varyansı
Sütun değerleri için popülasyon varyansını hesaplar.
Varyans, bir sayı kümesine ne kadar yayılacaklarını ölçür. Varyans sıfır ise tüm sayılar aynıdır.
Bu istatistik, değer sütunlarının popülasyonu temsil ettiğini varsaymaktadır. Verileriniz yalnızca değerlerin bir örneğini içeriyorsa, Örnek varyansı kullanarak varyansı hesaplamanız gerekir.
eşdeğer işlevi Excel işlevidirVAR.P
.
Ürün
Sütunun öğelerinin ürününü hesaplar.
Ürünü almak için sütundaki tüm sayıları birden çok kez kullanabilirsiniz. Sonuç kendi içinde açıklayıcı bir istatistik olarak kullanışlı değildir, ancak işlevi diğer çeşitli hesaplamalar için yararlıdır.
Aralık
Sütun değerlerinin aralığını hesaplar. Aralık, maksimum değer eksi minimum değer olarak tanımlanır
Örnek örnek
Sütun değerleri için örnek örneği hesaplar.
Genellikle değerlerin dağılımının şekli açıklandığından, değerlerin dağılımının normal dağılımla karşılaştırıldığında ne kadar yoğun veya düz olduğu açıklandı.
Normal dağılımın 0'lık bir dağılımı vardır.
Yüksek olasılık değerleri, olasılık kütlesinin bir tepe etrafında veya dağılımın kuyruğunda yoğun olduğunu gösterir.
Negatif negatif değerler görece düz bir dağılımı gösterir.
Örnek çarpıklık
Sütun değerleri için örnek çarpıklığı hesaplar.
Eğriltme, değerlerin toplu olarak merkezde, sola kaydırarak mı yoksa sağa kaydırarak mı olduğunu açıklar. İki dağılım aynı ortalama ve standart sapmaya sahip olabilir, ancak çok farklı şekilde şekillendirildi. Şekli karakterize etmek için çarpıklık ve her zaman kullanabilirsiniz.
Negatif eğriltme değerleri dağılımın sola doğru çarpıtıldı olduğu anlamına gelir.
0 normal dağıtımı ifade ediyor.
Pozitif çarpıklık değerleri dağılımın sağa doğru çarpıtıldı olduğu anlamına gelir.
Örnek standart sapma
Sütun değerleri için örnek standart sapmayı hesaplar.
Örneğin standart sapması, sütundaki değerlerin ortalamadan nasıl yayılacaklarını ölçür. Kümede yer alan verilerin değerleriyle ortalama arasındaki ortalama mesafeyi temsil eder.
Bu istatistik, sütun değerlerinin popülasyon örneğini temsil eder. Verileriniz popülasyonun tamamını temsil ediyorsa, Popülasyon standart sapmasını kullanarak standart sapmayı hesaplamanız gerekir.
Eşdeğer işlev Excel ST'dır. DEV.S.
Örnek varyansı
Sütun değerleri için örnek varyansı hesaplar.
Bu yöntem, sütun değerlerinin popülasyon örneğini temsil eder. Sütun popülasyonun tamamını içeriyorsa Population standart varyansı kullansanız iyi bir uygulamadır.
Eşdeğer Excel işlevi VAR.S'dir.
Sum
Sütun değerlerinin toplamını hesaplar.
Örnekler
Aşağıdaki denemeler, Azure Yapay Zeka Galerisi tüm veri kümesi için açıklayıcı istatistikler içeren bir özet raporu nasıl oluşturabilirsiniz? Özet raporu yalnızca genel istatistikleri içerir; ancak, bunu bir veri kümesi olarak kaydedebilir ve ardından Basit İstatistikleri Hesaplama'daki seçenekleri kullanarak daha ayrıntılı istatistikler ebilirsiniz.
UCI'den veri kümesi indirme: Verileri Özetle modülü, veri kümesinde tüm sütunlarda bir özet raporu oluşturmak için kullanılır.
Veri Kümesi İşleme ve Analiz: Verileri Özetle modülü, veri kümesinde yer alan tüm sütunlarda bir özet raporu oluşturmak için kullanılır.
Teknik notlar
Bu bölümde uygulama ayrıntıları, ipuçları ve sık sorulan soruların yanıtları yer almaktadır.
İpucu
İşlem Temel İstatistikleri modülü kullanılırken aşağıdaki koşullar karşılandı :
- Seçilen istatistiği hesaplamak için yeterli sayıda veri noktası (satır) olmalıdır. Örneğin, Örnek standart sapmayı hesaplamak için en az iki veri noktası gerekir; aksi takdirde, sonuç NaN olur.
- Giriş sütunları sayısal veya Boole olmalıdır.
Varsayılan olarak tüm sayısal sütunlar seçilir. Ancak, herhangi bir sayısal sütun kategorik olarak işaretlenirse şu hatayı alabilirsiniz: " Hata 0056: <> Sütun adı olan sütun izin verilen bir kategoride değil." Hatayı düzeltmek için Meta Verileri Düzenle modülünün bir örneğini ekleyin, sorunu içeren sütunu seçin ve Kategorik kaldır seçeneğini kullanın.
Uygulama ayrıntıları
Boole sütunları aşağıdaki gibi işlenir:
MIN mantıksal AND olarak hesaplanır.
MAX, mantıksal OR olarak hesaplanır.
RANGE, sütundaki benzersiz değerlerin sayısının 2'ye eşit olup olmadığını denetler.
Eksik değerler yoksayılır.
Kayan nokta hesaplamaları gerektiren istatistikler için True = 1.0 ve False = 0.0
Beklenen girişler
Ad | Tür | Description |
---|---|---|
Veri kümesi | Veri Tablosu | Giriş veri kümesi |
Modül parametreleri
Name | Aralık | Tür | Varsayılan | Description |
---|---|---|---|---|
Yöntem | Liste | Temel istatistik yöntemi | Hesaplamalarda kullanmak üzere istatistiksel bir yöntem seçer. Değer listesi için bkz. Kullanım bölümü. | |
Sütun kümesi | herhangi biri | ColumnSelection | NumericAll | İstatistik hesaplaması için sütunları seçer |
Sipariş | >=1 | Tamsayı | 3 | Merkezi an sırası için bir değer belirtir (yalnızca kth central moment için kullanılır) |
Çıktı
Ad | Tür | Description |
---|---|---|
Sonuç veri kümesi | Veri Tablosu | Çıktı veri kümesi |
Özel durumlar
Özel durum | Description |
---|---|
Hata 0017 | Belirtilen bir veya daha fazla sütun geçerli modül tarafından desteklenmeyen bir türe sahipse özel durum oluşur. |
Studio (klasik) modüllerine özgü hataların listesi için bkz. Machine Learning kodları.
API özel durumlarının listesi için bkz. Machine Learning REST API Kodları.
Ayrıca bkz.
İstatistiksel İşlevler
Ilköğretim
Verileri Özetleme
A-Z Modül Listesi