Makine öğrenmesi ilkelerini anlama
Makine öğrenmesi, tahmine dayalı modeller oluşturmak için kullanılan bir programlama tekniğidir. Tipik programlamadan farklı olarak, bir sonuç elde etmek için belirli adımları açıklamak için kodun kullanıldığı; makine öğrenmesi, bir veri varlığının özellikleriyle sonuçta elde edilen modelin tahmin etmesi gereken etiket arasındaki ilişkiyi yinelemeli olarak keşfetmek için algoritma kullanımına dayanır. Makine öğrenmesi algoritmaları olasılık teorisini ve istatistikleri temel alır ve modeli eğitmek için büyük hacimli verileri kullanır.
Basit bir düzeyde makine öğrenmesi modeli, gözlemlenen bir varlığın özelliklerini (özellikleri) alan ve tahmin edilen bir etiket döndürmek için bunlar üzerinde hesaplama yapan bir işlevdir. Genel olarak, özellikler x ve tahmin edilen etiket y olarak adlandırılır; bu nedenle, makine öğrenmesi modeli, ifadedeki fonksiyonudur.
Etiketin değerini hesaplamak için işlevin özellikler üzerinde gerçekleştirdiği belirli işlem, modeli eğitmek için kullanılan algoritma tarafından belirlenir.
Makine öğrenmesi türleri
Genel olarak, iki yaygın makine öğrenmesi türü vardır:
- Modelin bilinen etiket değerlerini içeren veriler kullanılarak eğitildiği denetimli makine öğrenmesi (bu nedenle bir algoritma, x ile y arasında bir ilişki kurmak için mevcut verileri kullanır ve böylece y'yi hesaplamak için x'e uygulanabilen bir işlev elde edilir).
- Modelin yalnızca özellik (x) değerleri ve benzer özelliklere sahip gruplar (veya kümeler) gözlemleri kullanılarak eğitildiği denetimsiz makine öğrenmesi.
Denetimli makine öğrenmesi
Bu modül, en yaygın senaryo olduğundan denetimli makine öğrenmesine odaklanır. Denetimli makine öğrenmesinin geniş tanımında iki yaygın makine öğrenmesi algoritması türü vardır:
Etiketin sayısal bir değer olduğu, fiyat, sıcaklık, miktar veya ölçülebilen başka bir değer gibi regresyon algoritmaları. Regresyon algoritmaları, işlevin (f) özellikler (x) üzerinde çalışarak etiketin (y) sayısal değerini hesapladığı modeller üretir.
Örneğin regresyon algoritması, belirli bir günde parktaki bir bilgi noktası tarafından satılan dondurmaların beklenen sayısını, yılın ayı, haftanın günü, sıcaklık, nem vb. özelliklere göre tahmin eden bir model eğitmek için kullanılabilir.
Etiketin ayrık bir kategori (veya sınıf) olduğu sınıflandırma algoritmaları. Sınıflandırma algoritmaları, işlevin (f) her olası sınıf için bir olasılık değeri hesaplamak üzere (x) üzerinde çalıştığı modeller üretir ve en yüksek olasılıkla sınıfın etiketini (y) döndürür.
Örneğin, bir sınıflandırma algoritması kan insülin düzeyi, kilo, boy, yaş gibi özelliklere göre bir hastanın diyabet olup olmadığını tahmin eden bir model eğitmek için kullanılabilir. İki olası sınıftan birini (true veya false gibi) tanımlayan bir sınıflandırma modeli , ikili sınıflandırma örneğidir. İkiden fazla sınıf için olasılığı tahmin eden algoritmalar (örneğin, diyabetsiz hastalar arasında fark, tip 1 diyabet veya tip 2 diyabet) çok sınıflı sınıflandırma için kullanılır.
Denetimsiz makine öğrenmesi
Denetimsiz öğrenmenin en yaygın biçimi, veri olaylarının özelliklerinin çok boyutlu uzayda bir nokta vektöru olarak kabul edildiği kümelemedir. Kümeleme algoritmasının amacı, benzer özelliklere sahip noktaların birbirine yakın olacak şekilde ve kümelerin birbirinden açıkça ayrılması için noktaları gruplandıran kümeleri tanımlamaktır.
Kümeleme, farklı veri kategorileri tanımlamanız gerektiğinde ancak mevcut veri gözlemlerinin zaten atanmış olduğu önceden tanımlanmış kategorileriniz olmadığında kullanışlıdır. Örneğin, müşterileri profillerindeki benzerliklere göre segmentlere ayırmak isteyebilirsiniz. Kümeleme, sınıflandırma çözümü oluşturmanın ilk adımı olarak da kullanılabilir. Temelde, verileriniz için uygun sınıfları belirlemek için kümeleme kullanırsınız.