Grundlegendes zu den Prinzipien des maschinellen Lernens

5 Minuten

Maschinelles Lernen ist eine Programmiertechnik, die zum Erstellen von Prädiktiven Modellen verwendet wird. Im Gegensatz zur typischen Programmierung, in der Code verwendet wird, um bestimmte Schritte zu beschreiben, um ein Ergebnis zu erzielen; Maschinelles Lernen basiert auf der Verwendung eines Algorithmus , um die Beziehung zwischen den Features einer Datenentität und der Bezeichnung zu untersuchen, die das resultierende Modell vorhersehen sollte. Machine Learning-Algorithmen basieren auf Wahrscheinlichkeitstheorie und Statistiken und basieren auf großen Datenmengen, mit denen das Modell trainiert werden soll.

Auf einer vereinfachten Ebene ist ein Machine Learning-Modell eine Funktion , die die Features einer beobachteten Entität (deren Merkmale) verwendet und eine Berechnung durchführt, um eine vorhergesagte Bezeichnung zurückzugeben. Es ist üblich, im Allgemeinen auf die Merkmale als x und das vorhergesagte Label als y zu verweisen; daher ist ein Machine-Learning-Modell die Funktion f im Ausdruck y = f(x).

Der spezifische Vorgang, den die Funktion für die Features ausführt, um einen Wert für die Beschriftung zu berechnen, wird durch den Algorithmus bestimmt, der zum Trainieren des Modells verwendet wird.

Arten von ML

Allgemein gibt es zwei gängige Arten von maschinellem Lernen:

Überwachtes maschinelles Lernen, in dem das Modell mithilfe von Daten trainiert wird, die bekannte Bezeichnungswerte enthalten (daher verwendet ein Algorithmus die vorhandenen Daten, um eine Beziehung zwischen x und y herzustellen, was zu einer Funktion führt, die auf x angewendet werden kann, um y zu berechnen).
Nicht überwachtes maschinelles Lernen, in dem das Modell mit nur Featurewerten (x) und Gruppenbeobachtungen (oder Clustern) mit ähnlichen Features trainiert wird.

Überwachtes maschinelles Lernen

Dieses Modul konzentriert sich auf überwachtes maschinelles Lernen, da dies das häufigste Szenario ist. Innerhalb der breiten Definition des überwachten maschinellen Lernens gibt es zwei gängige Arten von Machine Learning-Algorithmus:

Regressionsalgorithmen, bei denen es sich bei der Beschriftung um einen numerischen Wert handelt, z. B. einen Preis, eine Temperatur, eine Menge oder einen anderen Wert, der gemessen werden kann. Regressionsalgorithmen erzeugen Modelle, in denen die Funktion (f) mit den Features (x) arbeitet, um den numerischen Wert der Beschriftung (y) zu berechnen.

Beispielsweise könnte ein Regressionsalgorithmus verwendet werden, um ein Modell zu trainieren, das die erwartete Anzahl von Eiscremes prognostiziert, die von einem Kiosk in einem Park an einem bestimmten Tag verkauft werden, basierend auf Features wie dem Monat des Jahres, dem Wochentag, der Temperatur, der Feuchtigkeit usw.
Klassifizierungsalgorithmen, bei denen es sich bei der Bezeichnung um eine diskrete Kategorie (oder Klasse) handelt. Klassifizierungsalgorithmen erzeugen Modelle, in denen die Funktion (f) mit den Features (x) arbeitet, um einen Wahrscheinlichkeitswert für jede mögliche Klasse zu berechnen, und gibt die Beschriftung (y) für die Klasse mit der höchsten Wahrscheinlichkeit zurück.

Beispielsweise könnte ein Klassifizierungsalgorithmus verwendet werden, um ein Modell zu trainieren, das prognostiziert, ob ein Patient Diabetes hat, basierend auf Merkmalen wie Blutinsulinspiegel, Gewicht, Höhe, Alter usw. Ein Klassifizierungsmodell, das eine von zwei möglichen Klassen (z. B. wahr oder falsch) identifiziert, ist ein Beispiel für die binäre Klassifizierung. Algorithmen, die die Wahrscheinlichkeit für mehr als zwei Klassen vorhersagen (z. B. Unterscheidung zwischen Patienten ohne Diabetes, Typ 1 Diabetes oder Typ 2 Diabetes) werden für die Mehrklassenklassifizierung verwendet.

Unüberwachtes maschinelles Lernen

Die am häufigsten verwendete Form des unbeaufsichtigten Lernens ist clustering, in dem die Features von Datenfällen als Vektor von Punkten im mehrdimensionalen Raum betrachtet werden. Das Ziel eines Clusteringalgorithmus besteht darin, Cluster zu definieren, die die Punkte gruppieren, sodass Fälle mit ähnlichen Features eng miteinander verbunden sind, die Cluster jedoch eindeutig voneinander getrennt sind.

Clustering ist nützlich, wenn Sie unterschiedliche Kategorien von Daten definieren müssen, jedoch keine vordefinierten Kategorien haben, denen bereits vorhandene Datenbeobachtungen zugewiesen sind. Beispielsweise möchten Sie Kunden basierend auf Ähnlichkeiten in ihren Profilen segmentieren. Clustering kann auch als erster Schritt beim Erstellen einer Klassifizierungslösung verwendet werden – im Wesentlichen verwenden Sie Clustering, um die entsprechenden Klassen für Ihre Daten zu bestimmen.

Feedback

War diese Seite hilfreich?